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简介 
为 了 提取 知识 和 做 出 预测 ， 机 器 学 习 使 用 数学 模型 来 拟 合 数据 。 这 些 模型 将 特征 作为 输 
入 。 特 征 就 是 原始 数据 某 个 方面 的 数值 表示 。 在 机 器 学 习 流 程 中 ， 特 征 是 数据 和 模型 之 间 
的 纽带 。 特 征 工程 是 指 从 原始 数据 中 提取 特征 并 将 其 转换 为 适合 机 器 学 习 模 型 的 格式 。 它 
是 机 器 学 习 流 程 中 一 个 极其 关键 的 环节 ， 因 为 正确 的 特征 可 以 减轻 构建 模型 的 难度 ， 从 而 
使 机 器 学 习 流 程 输出 更 高 质量 的 结果 。 机 器 学 习 从 业者 有 一 个 共识 ， 那 就 是 建立 机 器 学 习 
流程 的 绝 大 部 分 时 间 都 耗费 在 特征 工程 和 数据 清洗 上 。 然 而 ， 尽 管 特征 工程 非常 重要 ， 专 
门 讨论 这 个 话题 的 著作 却 很 少 。 究 其 原因 ， 可 能 是 正确 的 特征 要 视 模 型 和 数据 的 具体 情况 
而 定 ， 而 模型 和 数据 千差万别 ， 很 难 从 各 种 项 目 中 归纳 出 特征 工程 的 实践 原则 。 


然而 ， 特 征 工 程 并 不 只 是 针对 具体 项 目的 行为 ， 它 有 一 些 基本 原则 ， 而 且 最 好 结合 具体 情 
境 进 行 解释 说 明 。 在 本 书 中 ， 每 一 章 都 集中 阐述 一 个 数据 问题 : 如 何 表示 文本 数据 或 图 像 
数据 ， 如 何 为 自动 生成 的 特征 降低 维度 ， 何 时 以 及 如 何 对 特征 进行 标准 化 ， 等 等 。 你 可 以 
将 本 书 看 作 内 容 互 有 联系 的 短篇 小 说 集 ， 而 不 是 一 部 长 篇 小 说 。 每 一 章 都 对 大 量 现 有 特征 
工程 技术 进行 了 简单 介绍 ， 它 们 综合 在 一 起 ， 曾 明了 特征 工程 的 基本 原则 。 


掌握 一 门 学 科 不 仅仅 是 要 了 解 其 中 的 定义 以 及 能 够 推导 公式 。 仪 知道 它 的 工作 机 制 和 用 途 
是 不 够 的 ， 你 还 必须 理解 它 为 什么 这 样 设计 ， 它 与 其 他 技术 有 何 联 系 ， 以 及 每 种 方法 的 优 
点 和 缺点 。 只 有 清楚 地 知道 事情 是 如 何 完成 的 ， 对 其 中 的 基本 原理 有 直观 的 理解 ， 并 能 将 
知识 融会 贯通 ， 才 称 得 上 精通 。 尽 管 一 本 好 书 可 以 让 你 初 客 门 径 ， 但 只 靠 读书 不 能 登 堂 和 
室 ， 你 必须 动手 实践 ， 将 你 的 想法 变 成 实际 的 应 用 ， 这 是 一 个 不 断 迭 代 的 过 程 。 在 每 次 选 
代 中 ， 我 们 都 能 将 想法 理解 得 更 加 透彻 ， 并 逐渐 找到 更 巧妙 、 更 有 创造 性 的 实现 方法 。 本 
书 的 目的 就 是 帮助 你 更 好 地 实现 想法 。 


本 书 力求 追 本 渊源 ， 数 学 方法 倒 在 其 次 。 我 们 不 仅 讨 论 如 何 去 做 ， 还 尽力 探究 为 什么 这 样 
















































































































































































做 。 我 们 的 目的 是 获得 想法 背后 的 直觉 ， 这 样 就 能 知道 何 时 以 及 如 何 去 应 用 这 些 方法 。 每 
个 人 的 学 习 方 式 各 不 相同 ， 因 此 本 书 使 用 了 大 量 的 文字 描述 和 图 片 来 进行 讲解 。 使 用 数学 
公式 则 是 为 了 精确 地 表示 直觉 ， 并 充当 本 书 与 其 他 资料 之 间 的 沟通 桥梁 。 


本 书 的 代码 示例 是 用 Python 编写 的 ， 使 用 了 大 量 免 费 和 开源 的 程序 包 。NumpPy 库 提供 
了 数值 向 量 和 和 矩阵 操作 ，Pandas 提供 了 数据 框 ， 这 是 Python 数据 科学 的 基础 数据 结构 ， 
scikit-learn 是 一 个 通用 的 机 器 学 习 包 ， 包 含 了 大 量 的 模型 和 特征 转换 功能 ，Matplotlib 和 样 
式 库 Seaborn 提供 了 绘图 和 可 视 化 支持 。 你 可 以 在 本 书 的 GitHub 仓库 (https://github.com/ 
alicezheng/feature-engineering-book) 中 找到 .ipynb 格式 的 示例 。 
























































前 4 章 的 节奏 不 快 ， 因 为 要 照顾 一 下 那些 刚刚 接触 数据 科学 和 机 器 学 习 的 读者 。 第 1 章 介 
绍 机 器 学 习 流 程 中 的 基本 概念 (数据 、 模 型 、 特 征 等 )。 第 2 章 研究 数值 型 数据 的 基础 特 
征 工程 : 过 滤 、 分 箱 、 缩 放 、 对 数 变换 和 短 次 变换 ， 以 及 交互 特征 。 第 3 章 开始 介绍 自然 
文本 的 特征 工程 ， 并 研究 词 袋 、n-gram 和 短语 检测 等 技术 。 第 4 章 介 绍 给 idf ( 词 频 - 逆 
文档 频率 )， 并 将 其 作为 特征 缩放 的 一 个 例子 ， 说 明 特 征 缩放 为 什么 会 有 效 。 从 第 5 章 开 
各， 市 奏 开 始 加 快 ， 我 们 要 讨论 高 效 的 分 类 变量 编码 技术 ， 包 括 特征 散 列 化 和 分 箱 计 数 。 
第 6 章 介绍 主 成 分 分 析 (PCA)， 此 时 我 们 已 经 深入 到 机 器 学 习 的 腹地 了 。 第 7 章 将 大 均 
值 聚 类 作为 一 种 特征 化 技术 ， 说 明了 模型 堆 秋 这 一 重要 概念 。 第 8 章 专门 讲解 图 像 处 理 ， 
图 像 数 据 的 特征 提取 要 比 文 本 数据 困难 得 多 。 我 们 先 介 绍 两 种 手动 提取 特征 的 技术 : SIFT 
和 HOG， 然 后 再 介绍 深度 学 习 这 种 最 新 的 图 像 特征 提取 技术 。 最 后 ， 第 9 章 通过 一 个 完 
整 的 例子 (为 一 个 学 术 论 文 数据 集 创建 推荐 器 ) 演示 几 种 技术 的 实际 应 用 。 


特征 工程 是 一 个 非常 宽泛 的 话题 ， 每 天 都 有 新 的 方法 被 发 明 出 来 ， 尤 其 是 在 自动 特征 学 习 
领域 。 为 了 控制 本 书 的 篇 幅 ， 我 们 必须 做 一 些 取舍 。 本 书 不 讨论 音频 数据 的 传 里 叶 分 析 ， 
尽管 这 是 一 个 与 线性 代数 中 的 特征 分 析 (第 4 章 和 第 6 章 会 介绍 ) 联系 得 非常 紧密 的 美 
妙 主题 。 我 们 也 不 讨论 随机 特征 ， 它 与 传 里 叶 分 析 密 切 相关 。 通 过 讲解 图 像 数 据 的 深度 学 
习 ， 本 书 对 特征 学 习 做 了 简要 的 介绍 ， 但 没有 深入 介绍 目前 正在 迁 勃 发 展 的 大 量 深度 学 习 
模型 。 还 有 一 些 高 级 研究 方法 也 不 在 本 书 讨论 范围 内 ， 比 如 随机 投影 、 复 杂 的 文本 特征 化 
模型 《如 词 向 量 和 布朗 聚 类 ) 、 隐 含 空间 模型 Cana m CRI a 2 RERBA NE). ndo 
些 名 词 对 你 来 说 根本 无 所 谓 ， 那 么 恭喜 你 ， 如 有 果 你 的 兴趣 所 在 是 特征 学 习 的 最 前 沿 ， 那 本 
书 可 能 不 适合 你 。 








































































































本 书 假定 你 具有 机 器 学 习 的 基础 知识 ， 比 如 知道 什么 是 模型 、 什 么 是 向 量 ， 但 我 们 会 通过 
一 个 简单 的 复习 使 所 有 读者 处 于 同一 起 点 。 如 果 你 具有 线性 代数 、 概 率 分 布 和 最 优化 方面 
的 经 验 ， 那 将 会 很 有 帮助 ， 但 这 些 经 验 不 是 必需 的 。 


排版 约定 


本 书 使 用 了 下 列 排版 约定 。 


























| EE A 


x BY 


Ill 


。 REF 
表示 新 术语 和 重点 强调 的 内 容 。 





。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 程序 元 素 ， 比 如 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 
环境 变量 、 语 句 和 关键 字 等 。 





。 加 粗 等 宽 字体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 





。 RHE (constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 





本 书 还 包含 一 些 线性 代数 公式 。 我 们 使 用 以 下 惯例 : 斜体 小 写字 母 表示 标量 (如 a)， 加 粗 
斜体 小 写字 母 表示 向 量 (如 v)， 加 粗 斜 体 大 写字 母 表示 矩阵 (如 U). 


该 图 标 表示 提示 或 建议 。 





该 图 标 表示 一 般 注 记 。 








该 图 标 表示 警告 或 警示 。 








使 用 示例 代码 


本 书 的 附加 资料 (示例 代码 、 练 习题 等 ) 可 以 从 https://github.com/alicezheng/feature-engineering- 
book 下 载 。 


本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 须 联系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 须 获 得 许可 ， 销 售 或 分 发 O^ Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ;引用 本 书 中 的 示例 代码 回答 问题 无 须 获得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 
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我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包 括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 : “Feature Engineering for Maching Learning by Alice Zheng and 
Amanda Casari (O’Reilly). Copyright 2018 Alice Zheng and Amanda Casari, 978-1-491-95324-2.” 











如 果 你 觉得 自己 对 示例 代码 的 使 用 超出 了 上 述 许 可 的 范围 ， 欢 迎 你 通过 permissions 
oreilly.com 与 我 们 联系 。 











O'Reilly Safari 


4 Safari (原来 叫 Safari Books Online) 是 一 个 会 员 制 的 培训 和 参考 平 
Safari e. amer. enr. anam. 


会 员 可 以 访问 几 千 种 图 书 、 培 训 视 频 、 学 习 路 径 、 互 动 式 教 程 和 精 选 播放 列表 ， 提 供 这 些 
资源 的 出 版 商 超过 250 家 ， 包 括 O'Reilly Media, Harvard Business Review, Prentice Hall 


Professional, Addison-Wesley Professional, Microsoft Press, Sams, Que, Peachpit Press, 





Adobe, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM 
Redbooks, Packt, Adobe Press, FT Press, Apress, Manning, New Riders, McGraw-Hill, 
Jones & Bartlett, Course Technology, $, 


XXE fu. BUR http:/oreilly.com/safari , 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
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O'Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
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北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
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本 书 有 一 个 网 页 ， 上 面 列 出 了 勘误 '、 示 例 和 所 有 附加 信息 ， 网 页 地 址 为 : 
http://bit.ly/featureEngineering for ML 

















证 1: 本 书 中 文 版 勘误 请 到 www.ituring.com.cn/book/2050 查看 和 提交 。 一 一 编者 注 
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对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : 


bookquestions(goreilly.com 











要 了 解 更 多 O'Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 


http://www.oreilly.com 








我 们 在 Facebook 的 地 址 如 下 : 
http://facebook.com/oreilly 


请 关注 我 们 的 Twitter 动态 : 
http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : 
http://www.youtube.com/oreillymedia 
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在 开始 学 习 特 征 工程 之 前 ， 我 们 先 花 点 时 间 了 解 一 下 机 器 学 习 的 整体 流程 ， 这 有 助 于 我 们 
更 全 面 地 理解 特征 工程 。 为 此 ， 我 们 先 学 习 几 个 基本 概念 ， 比 如 数据 和 模型 。 


1.1 数据 


我 们 所 说 的 数据 是 对 现实 世界 的 现象 的 观测 。 例 如 ， 股 票 市 场 数据 包括 对 每 日 股价 、 各 个 
公司 的 一 余 公告 ， 其 至 专家 学 者 发 表 的 股评 文章 的 观测 ， 个 人 的 生物 特征 数据 包括 对 每 分 
钟 的 心率 、 血 糖水 平 、 血 压 等 指标 的 测量 ， 客 户 智能 数据 包括 像 “ 爱 丽 丝 在 星期 天 买 了 两 
本 书 ”“ 鲍 孝 在 这 个 网 站 上 浏览 了 这 些 网 页 ”“ 查 理 点 击 了 这 个 从 上 周 开 始 的 特价 销售 链 
接 ” 之 类 的 数据 。 不 同 领域 的 数据 示例 无 穷 无 尽 ， 不 一 而 足 。 


























每 份 数 据 都 是 管 中 宵 豹 ， 只 能 反映 一 小 部 分 现实 ， 把 这 些 观测 综合 起 来 才能 得 到 一 个 完整 
的 描述 。 但 这 个 描述 非常 散乱 ， 因 为 它 由 成 千 上 万 个 小 片段 组 成 ， 而 且 总 是 存在 测量 噪声 
和 缺失 值 。 


12 任务 


我 们 为 什么 要 收集 数据 呢 ? 因 为 有 些 问 题 需要 靠 数据 找 出 答案 ， 比 如 :“ 我 应 该 买 哪 广 股 
票 ? “”“ 我 如 何 活 得 更 健康 ? " “我 如 何 才 能 了 解 顾客 不 断 变 化 的 喜好 ， 从 而 更 好 地 提供 


服务 ? ” 



































从 数据 到 答案 的 路 上 ， 充 满 了 错误 的 开始 和 死胡同 CULL 1-1)， 经 常 是 有 意 栽 花花 不 发 ， 
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所 中 观测 到 的 ， 然 后 由 像 汤 森 路 透 这 样 的 中 间 机 构 进行 汇集 并 保存 在 数据 库 中 ， 之 后 被 某 个 
公司 买 去 ， 转 换 为 一 个 Hadoop 集群 上 的 Hive 仓库 ， 再 被 某 个 脚本 从 仓库 中 读 出 ， 进 行 二 次 
抽样 和 各 种 处 理 ， 接 着 通过 另 一 个 脚本 进行 清洗 ， 导 出 到 一 个 文件 ， 转 换 为 某 种 格式 ， 然 后 
VE R, Python 或 Scala 中 你 最 喜欢 的 建 模 程序 进行 试验 。 接 着 ,预测 结果 被 导出 为 一 个 
CSV 文件 ， 再 用 一 个 估 值 程序 进行 解析 。 模 型 会 被 迭代 多 次 ， 由 产品 团队 用 C++ 或 Java 
HS, 并 在 全 部 数据 上 运行 ， 然 后 最 终 的 预测 结果 会 输出 到 另 一 个 数据 库 中 保存 起 来 。 













































































图 1-1: 数据 与 答案 之 间 错 综 复杂 的 路 径 


然而 ， 如 果 我 们 不 被 这 些 杂乱 的 工具 与 系统 所 迷惑 ， 就 能 够 发 现 这 个 过 程 包括 两 个 构成 机 
器 学 习 基 础 的 数学 实体 : 模型 和 特征 。 


1.3 ”模型 


通过 数据 来 理解 世界 就 像 是 玩 拼图 ， 但 这 副 拼图 是 杂乱 且 不 完整 的 ， 而 且 带 有 多 余 的 部 
分 。 这 时 数学 模型 一 一 特别 是 统计 模型 一 一 就 派 上 用 场 了 。 统 计 语 言 中 有 很 多 概念 ， 可 以 
描述 常见 的 数据 特性 ， 比 如 错误 数据 、 元 余数 据 和 缺失 数据 。 错 误 数据 是 由 测量 时 的 错误 
造成 的 。 元 余数 据 则 是 对 同一 信息 的 多 次 表述 ， 比 如 ， 一 周 中 的 一 天 可 以 用 分 类 变量 来 表 
示 ， 它 的 值 为 “星期 一 ”“ 星 期 二 ”…… “星期 日 "， 还 可 以 表示 为 0 和 6 之 间 的 整数 值 。 
如 有 果 某 些 数据 点 中 不 存在 这 种 星期 几 的 信息 ， 那 就 出 现 了 缺失 数据 。 


数据 的 数学 模型 描述 了 数据 不 同 部 分 之 间 的 关系 。 例 如 ， 预 测 股票 价格 的 模型 可 以 是 一 个 
公式 ， 它 将 公司 的 收入 历史 、 过 去 的 股票 价格 和 行业 映射 为 预测 的 股票 价格 。 音 乐 推荐 模 
型 可 以 基于 收听 习惯 测量 用 户 之 间 的 相似 度 ， 然 后 向 收听 大 量 同 种 歌曲 的 用 户 推荐 同一 个 
音乐 家 。 
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数学 公式 将 数值 型 的 变量 联系 起 来 ， 但 原始 数据 经 常 不 是 数值 型 的 。( 爱丽 丝 在 星期 三 购 
买 了 《指环 王 》 三 部 曲 ” 这 一 行为 就 不 是 数值 型 的 ， 她 随后 对 这 本 书 发 表 的 评价 也 不 是 数 
EWA) 必须 有 个 什么 东西 将 这 二 者 联系 起 来 ， 这 就 是 特征 的 用 武之 地 了 。 


1.4 ”特征 


特征 是 原始 数据 的 数值 表示 。 有 多 种 方法 可 以 将 原始 数据 转换 为 数值 型 的 表示 ， 所 以 特征 
可 以 有 多 种 形式 。 当 然 ， 特 征 必须 采用 可 用 的 数据 类 型 。 事 实 上 ， 特 征 还 和 模型 相关 联 ， 
这 一 点 可 能 并 不 那么 显而易见 。 有 些 模 型 更 适合 使 用 某 种 类 型 的 特征 ， 反 之 亦 然 。 正 确 的 
特征 应 该 适合 当前 的 任务 ， 并 易于 被 模型 所 使 用 。 特 征 工程 就 是 在 给 定数 据 、 模 型 和 任务 
的 情况 下 设计 出 最 合适 的 特征 的 过 程 。 


特征 的 数量 也 非常 重要 。 如 果 没 有 足够 的 有 信息 量 的 特征 ， 那 么 模型 将 不 能 完成 最 终 的 任 
务 。 如 果 特 征 过 多 ， 或 者 多 数 特 征 不 合适 ， 那 么 模型 将 很 难 训练 而 且 训练 成 本 高 郧 。 在 训 
练 过 程 中 可 能 会 出 现 一 些 影响 模型 性 能 的 错误 。 


1.5 “模型 评价 


特征 和 模型 位 于 原始 数据 和 我 们 想得到 的 知识 之 间 〈 见 图 1-2)。 在 机 器 学 习 流程 中 ， 我 
们 要 选择 的 不 仅 是 模型 ， 还 有 特征 。 模 型 与 特征 相辅相成 ， 对 其 中 一 个 的 选择 会 影响 另 一 
个 。 好 的 特征 可 以 使 随后 的 建 模 步 又 更 容易 ， 最 后 得 出 的 模型 也 更 能 完成 所 需 的 任务 。 坏 
的 特征 要 想 达 到 同等 性 能 ， 则 需要 复杂 得 多 的 模型 。 在 本 书后 面 的 内 容 中 ， 我 们 将 介绍 各 
种 不 同类 型 的 特征 ， 并 讨论 它们 对 于 不 同类 型 的 数据 和 模型 的 优 缺 点。 闲话 少 说 ， 我 们 开 
始 吧 ! 






















































































图 1-2: 特征 工程 在 机 器 学 习 流程 中 的 位 置 
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简单 而 又 奇妙 的 数值 





在 研究 诸如 文本 和 图 像 这 样 的 复杂 数据 类 型 之 前 ， 我 们 先 看 看 最 简单 的 数据 类 型 : 数值 。 
数值 型 数据 有 多 种 来 源 : 某 个 人 或 某 个 地 点 的 地 理 位置 、 一 宗 交 易 的 价格 、 传 感 器 中 的 测 
量 数据 、 交 通 流 量 ， 等 等 。 尽 管 数值 型 数据 已 经 很 容易 被 数学 模型 所 使 用 了 ， 但 并 不 意味 
着 不 需要 进行 特征 工程 。 好 的 特征 不 仅 能 够 表示 出 数据 的 主要 特点 ， 还 应 该 符合 模型 的 假 
设 ， 因 此 通常 必须 进行 数据 转换 。 数 值 型 数据 的 特征 工程 技术 是 非常 基本 的 ， 只 要 原始 数 
据 被 转换 成 数值 型 特征 ， 就 可 以 应 用 这 些 技 术 。 


要 对 数值 型 数据 进行 合理 性 检查 ， 首 先 要 看 看 它 的 量 级 。 我 们 只 需 知 道 它 是 正 的 还 是 负 
的 ， 还 是 只 需 在 一 个 很 粗 的 粒度 上 知道 它 的 量 级 ? 这 种 合理 性 检查 非常 重要 ， 尤 其 是 对 于 
那些 自动 产生 的 数值 ， 比 如 计数 (网 站 的 每 日 访问 量 、 餐 馆 的 评价 数量 等 )。 


然后 ， 还 要 考虑 一 下 特征 的 尺度 。 它 的 最 大 值 和 最 小 值 是 多 少 ? 是否 横 跨 多 个 数量 级 ?如 
果 模 型 是 输入 特征 的 平滑 函数 ， 那 么 它 对 输入 的 尺度 是 非常 敏感 的 。 例 如 ，3x + 1 是 输 
入 x 的 一 个 简单 线性 函数 ， 它 的 输出 尺度 直接 取决 于 输入 尺度 。 此 外 ， 厂 均值 聚 类 、 最 近 
邻 方 法 、 径 向 基 核 函数 ， 以 及 所 有 使 用 欧 氏 距离 的 方法 都 属于 这 种 情况 。 对 于 这 类 模型 和 
模型 成 分 ， 通 常 需要 对 特征 进行 标准 化 ， 以 便 将 输出 控制 在 期 望 的 范围 之 内 。 


相反 ,逻辑 函数 对 输入 特征 的 尺度 并 不 敏感 。 无 论 输入 如 何 ， 这 种 函数 的 输出 总 是 一 个 二 
值 变量 。 例 如 ， 逻 辑 操作 AND 接受 两 个 变量 ， 当 且 仅 当 这 两 个 输入 都 为 真 时 ， 才 输 
出 1。 逻 辑 函 数 的 另 一 个 例子 是 阶梯 函数 (如: 输入 x 是否 大 于 5 ? )。 决 策 树 模型 中 使 用 
了 输入 特征 的 阶梯 函数 ， 因 此 ， 基 于 空间 分 割 树 的 模型 (决策 树 、 梯 度 提升 机 、 随 机 森 
Mk) 对 尺度 是 不 敏感 的 。 唯 一 的 例外 是 ， 如 果 输 入 的 尺度 是 随时 间 变 化 的 ， 也 就 是 说 如 
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果 特 征 是 某 种 累计 值 ， 那 么 它 最 终 可 能 会 超出 训练 树 的 取 值 范围 。 如 果 出 现 了 这 种 情况 ， 
就 必须 定期 地 对 输入 尺度 进行 调整 ， 另 外 一 种 解决 方案 是 使 用 区 间 计 数 方法 ， 我 们 将 
在 第 5 章 中 介绍 。 


数值 型 特征 的 分 布 也 非常 重要 ， 这 种 分 布 可 以 表示 出 一 个 特定 值 出 现 的 概率 。 输 入 特征 的 
分 布 对 于 某 些 模 型 来 说 比 其 他 模型 更 重要 。 例 如 ， 线 性 回归 模型 的 训练 过 程 需 要 假定 预 
测 误差 近似 地 服从 高 斯 分 布 。 这 种 假定 通常 是 没有 问题 的 ， 除 了 预测 目标 分 布 在 多 个 数 
量 级 中 的 时 候 ， 在 这 种 情况 下 ， 误 差 符 合 高 斯 分 布 的 假定 将 不 会 被 满足 。 一 种 解决 方法 
是 对 输出 目标 进行 转换 ， 以 消除 数量 级 带 来 的 影响 。( 严 格 说 来 ， 这 应 该 称 为 目标 工程 ， 
而 不 是 特征 工程 .) 对 数 变换 (指数 变换 的 一 种 特殊 形式 ) 可 以 使 变量 的 分 布 更 加 接近 于 
高 斯 分 布 。 


除了 对 特征 进行 转换 以 满足 模型 或 训练 过 程 中 的 假设 ， 还 可 以 将 多 个 特征 组 合 在 一 起 形成 
更 复杂 的 特征 。 我 们 希望 复杂 特征 能 更 加 简洁 地 捕获 到 原始 数据 中 的 重要 信息 。 使 输入 特 
征 “ 更 具 信 息 量 ”可 以 使 模型 本 身 更 简单 ， 更 容易 训练 和 评价 ， 也 能 做 出 更 好 的 预测 。 极 
端 情况 下 ， 我 们 可 以 使 用 统计 模型 的 输出 作为 复杂 特征 ， 这 种 思想 称 为 模型 堆 释 ， 我 们 将 
在 第 7 章 和 第 8 章 中 详细 介绍 。 本 章 只 给 出 一 个 最 简单 的 复杂 特征 示例 : 交互 特征 。 


交互 特征 的 构造 非常 简单 ， 但 将 特征 组 合 输入 到 模型 中 后 ， 会 产生 各 种 各 样 的 结果 。 为 了 
降低 计算 成 本 ， 通 常 需要 使 用 自动 的 特征 选择 技术 对 和 输入 特征 进行 精简 。 


我 们 先 介绍 一 些 基 本 概念 : 标量 、 向 量 和 空间 ， 然 后 讨论 特征 尺度 、 特 征 分 布 、 交 互 特征 
和 特征 选择 。 


2.1 标量 、 向 量 和 空间 

在 深入 介绍 之 前 ， 我 们 需要 定义 几 个 基本 概念 ， 作 为 后 续 内 容 的 基础 。 单 独 的 数值 型 特征 
称 为 标量 ， 标 量 的 有 序列 表 称 为 向 量 ， 向 量 位 于 向 量 空间 中 。 在 绝 大 多 数 机 器 学 习 应 用 
中 ， 模 型 的 输入 通常 表示 为 数值 向 量 。 本 书后 面 会 介绍 将 原始 数据 转换 为 数值 向 量 的 最 佳 
实践 策略 。 


向 量 可 以 形象 化 地 表示 为 空间 中 的 一 个 点 。( 有 了 时候 ， 人 们 会 从 原点 向 这 个 点 画 一 条 线 或 
一 个 箭头 。 在 本 书 中 ， 我 们 通常 只 画 出 一 个 点 。) 举 个 例子 ， 假 如 有 一 个 二 维 向 量 "= [1, -1]， 
这 个 向 量 包含 两 个 数值 : 在 第 一 个 方向 四 中 ， 向 量 有 一 个 值 1， 在 第 二 个 方向 4, 中 ， 向 量 
有 一 个 值 -1。 我 们 可 以 在 二 维 图 表 中 绘制 出 vy， 如 图 2-1 所 示 。 
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2-1; 一 个 向 量 


在 数据 世界 中 ， 抽 象 的 向 量 和 它 的 特征 维度 具有 实际 意义 。 例 如 ， 可 以 用 向 量 表示 某 个 人 
对 歌曲 的 偏好 ， 这 时 每 首 歌 都 是 一 个 特征 ， 值 为 1 时 表示 喜欢 这 首 歌 ， 值 为 -1 时 表示 不 
喜欢 。 假 设 向 量 "表示 听众 Bob 的 偏好 ， 他 喜欢 Bob Dylan 的 “Blowin in the Wind” 和 
Lady Gaga 的 “Poker Face”。 其 他 听众 则 会 有 不 同 的 偏好 。 总 体 来 说 ， 所 有 数据 的 集合 可 
以 在 特征 空间 中 形象 地 表示 为 一 个 点 云 。 


反之 ， 一 首 歌曲 也 可 以 通过 一 组 听众 的 个 人 偏好 表示 出 来 。 假 设 只 有 两 个 听众 ，Alice 和 
Bob, Alice 喜欢 “Poker Face" “Blowin’ in the Wind" 和 Leonard Cohen HJ “Hallelujah”, 
但 是 讨厌 Katy Perry HY “Roar” 4H Radiohead HJ "Creep", Bob XXX “Roar” “Hallelujah” 
F0 “Blowin’ in the Wind”， 但 是 讨厌 “Poker Face” 和 “Creep”。 每 首 歌 都 是 听众 空间 中 的 
一 个 点 。 就 像 可 以 在 特征 空间 中 表示 出 数据 一 样 ， 我 们 也 可 以 在 数据 空间 中 表示 出 特征 。 
图 2-2 中 展示 出 了 这 个 示例 。 
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2-2: 特征 空间 与 数据 空间 


2.2 ”处理 计数 


在 大 数据 时 代 ， 计 数 数据 可 以 无 限度 地 快速 增长 。 用 户 可 以 无 数 次 地 重复 播放 一 首 歌曲 或 
一 部 电影 ， 也 可 以 使 用 脚本 反复 地 检查 一 个 热门 演出 是 否 有 余 票 ， 这 都 可 以 使 播放 计数 和 
网 站 访问 计数 快速 增长 。 当 数据 被 大 量 且 快 速 地 生成 时 ， 很 有 可 能 包含 一 些 极端 值 。 这 时 
就 应 该 检查 数据 的 尺度 ， 确 定 是 应 该 保留 数据 原始 的 数值 形式 ， 还 是 应 该 将 它们 转换 成 二 
值 数据 ， 或 者 进行 粗 粒 度 的 分 箱 操作 。 为 了 说 明 这 种 思想 ， 我 们 来 看 儿 个 例子 。 


2.2.1 二 值 化 

Echo Nest Taste Profile 是 百 万 歌曲 数据 集 (Million Song Dataset) 的 正式 用 户 数据 子 集 ， 
中 包含 了 100 万 用 户 在 Echo Nest 网 站 上 完整 的 音乐 收听 历史 。 下 面 是 这 个 数据 集 的 一 此 
重要 统计 信息 。 
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Echo Nest Taste Profile 数据 集 的 统计 信息 
数据 集中 有 超过 4800 万 个 由 用 户 ID, RH ID 和 收听 次 数 构 成 的 三 元 组 。 
完整 的 数据 集中 包括 1019 318 个 独立 用 户 和 384 546 首 独 立 歌 曲 。 














假设 我 们 的 任务 是 创建 一 个 向 用 户 推荐 歌曲 的 推荐 器 ， 它 的 一 个 功能 是 预测 某 个 用 户 喜 欢 
某 首 歌曲 的 程度 。 既 然 数据 中 包含 了 实际 的 收听 次 数 ， 那 么 可 以 用 它 作 为 预测 的 目标 变量 
吗 ? 如 果 高 收听 次 数 意味 着 用 户 真 的 喜欢 这 首 歌 ， 低 收听 次 数 意味 着 用 户 对 这 首 歌 不 感 兴 
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趣 ， 那 么 就 可 以 用 它 作为 目标 变量 。 但 是 ， 数 据 表 明 ， 尽 管 99% 的 收听 次 数 是 24 或 更 低 ， 
还 是 有 一 些 收听 次 数 达 到 了 几 千 ， 最 大 值 是 9667。( 如 图 2-3 所 示 ， 直 方 图 中 的 峰值 出 现 
在 与 0 最 接近 的 区 间 中 ， 有 1 万 多 个 三 元 组 具有 较 高 的 收听 次 数 ， 其 中 一 些 有 几 千 次 。) 
这 些 值 高 得 离谱 ， 如 果 我 们 试图 去 预测 实际 的 收听 次 数 ， 模 型 会 被 这 些 异 常 值 严重 带 偏 。 
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2-3; 百 万 歌曲 数据 集 Taste Profile 子 集中 的 收听 次 数 直方 图 ， 注 意 y 轴 使 用 的 是 对 数 标 度 


在 百 万 歌曲 数据 集中 ， 原 始 的 收听 次 数 并 不 是 衡量 用 户 喜 好 的 强壮 指标 。( 在 统计 学 术语 
中 ,“ 强 壮 ” 意 味 着 该 方法 适用 于 各 种 情况 。) 不 同 的 用 户 有 不 同 的 收听 习惯 ， 有 些 人 会 无 
限 循 环 地 播放 他 们 最 喜欢 的 歌曲 ， 有 些 人 则 只 是 在 特定 情形 下 欣赏 音乐 。 我 们 不 能 认为 收 
听 了 某 首 歌曲 20 次 的 人 喜欢 该 歌曲 的 程度 肯定 是 收听 了 10 次 的 人 的 两 倍 。 


更 强壮 的 用 户 偏好 表示 方法 是 将 收听 次 数 二 值 化 ， 把 所 有 大 于 1 的 次 数值 设 为 1， 如 例 2-1 
所 示 。 换 言 之 ， 如 果 用 户 收听 了 茶 首 歌曲 至 少 一 次 ， 那 么 就 认为 该 用 户 喜 欢 该 歌曲 。 这 
样 ， 模 型 就 不 用 花费 开销 来 预测 原始 收听 次 数 之 前 的 时 间 差 别 。 二 值 目 标 变量 是 一 个 既 简 
单 又 强壮 的 用 户 偏好 衡量 指标 。 


例 2-1 百 万 歌曲 数据 集中 的 收听 次 数 二 值 化 
>>> import pandas as pd 
>>> listen count = pd.read csv('millionsong/train triplets.txt.zip', 
XE headerzNone, delimiter='\t') 
# 表 中 包含 有 形式 为 “用 户 -歌曲 -收听 次 数 ” 的 三 元 组 。 只 包含 非 零 收 听 次 数 。 
# 因此 ， 要 二 值 化 收听 次 数 ， 只 需 将 整个 收听 次 数列 设 为 1。 


>>> listen count[2] = 1 








































































































这 是 一 个 对 模型 的 目标 变量 进行 处 理 的 例子 。 严 格 说 来 ， 目 标 变量 不 是 特征 ， 因 为 它 不 是 
输入 。 但 为 了 正确 地 解决 问题 ， 有 时 候 确实 需要 修改 目标 变量 。 

















2.2.2 ”区间 量化 〈 分 箱 ) 

在 这 个 练习 中 ， 我 们 使 用 来 自 于 Yelp 点 评 网 站 数据 竞赛 (http://www.yelp.com/dataset_ 
challenge) 第 6 轮 的 数据 ， 并 用 这 些 数据 创建 一 个 规模 小 得 多 的 分 类 数据 集 。Yelp 数据 集 
是 用 户 对 商家 的 点 评 数据 ， 这 些 商 家 来 自 于 北美 和 欧洲 的 10 个 城市 ， 每 个 商家 都 用 0 个 
或 多 个 分 类 进行 标记 。 


























Yelp 点 评 数据 集 (第 6 轮 ) 的 统计 信息 
。 782 个 商业 分 类 。 
。 整个 数据 集 包 含 1569264 (2160 万 ) 条 点 评 和 61184 个 商家 。 
。 就 点 评 数量 而 言 ,， “Restaurants”(990 627 条 点 评 ) fe “Nightlife” (210028 条 点 评 ) 
是 最 普遍 的 分 类 。 
。 没有 商家 有 既 属 于 餐馆 又 属于 夜生活 场所 ， 所 以 这 两 个 点 评分 组 中 没有 重 胎 。 














每 个 商家 都 有 一 个 点 评 数量 。 假 设 我 们 的 任务 是 使 用 协同 过 滤 方 法 预测 茶 用 户 给 某 商 家 的 打 
分 。 点 评 数 量 会 是 一 个 非常 有 用 的 输入 特征 ， 因 为 人 气 和 高 评分 之 间 通 常 有 很 强 的 相关 性 。 
现在 的 问题 就 是 ， 我 们 应 该 使 用 原始 点 评 数 量 ， 还 是 应 该 对 其 做 进一步 的 处 理 ? 图 2-4 是 根 
据 例 2-2 生成 的 ， 它 给 出 了 所 有 商家 点 评 数量 的 直方 图 。 从 中 可 以 看 出 ， 它 和 前 一 个 例子 中 
的 收听 次 数 具 有 相同 的 模式 : 大 多 数 商家 的 点 评 数量 很 少 ， 但 有 些 商家 具有 几 千 条 点 评 。 


例 2-2 Yelp 数据 集中 的 商家 点 评 数量 可 视 化 
>>> import pandas as pd 
>>> import json 





















































# 加 载 商家 数据 
>>> biz file = open('yelp academic dataset business.json') 

>>> biz df = pd.DataFrame([json.loads(x) for x in biz file.readlines()]) 
>>> biz file.close() 


>>> import matplotlib.pyplot as plt 
>>> import seaborn as sns 








# 绘制 点 评 数量 直方 区 
>>> sns.set style('whitegrid') 

>>> fig, ax = plt.subplots() 

>>> biz_df['review_count'].hist(ax=ax, bins=100) 
>>> ax.set_yscale('log') 

>>> ax.tick params(labelsize-14) 

>>> ax.set xlabel('Review Count', fontsize=14) 
>>> ax.set ylabel('Occurrence', fontsize-14) 














原始 的 点 评 数量 横 跨 了 若干 个 数量 级 ， 这 对 很 多 模型 来 说 都 是 个 问题 。 在 线性 模型 中 ， 
同一 线性 系数 应 该 对 所 有 可 能 的 计数 值 起 作用 。 过 大 的 计数 值 对 无 监督 学 习 方法 也 会 造 
成 破坏 ， 比 如 撕 均 值 聚 类 ， 它 使 用 欧 氏 距离 作为 相似 度 函 数 来 测量 数据 点 之 间 的 相似 度 。 



































简单 而 又 奇妙 的 数值 | 9 


数据 向 量 茶 个 元 素 中 过 大 的 计数 值 对 相似 度 的 影响 会 远 超 其 他 元 素 ， 从 而 破坏 整体 的 相 
似 度 测量 。 








10? 


Occurrence 





0 1000 2000 3000 4000 5000 
Review Count 











2-4, Yelp 点 评 数据 集中 商家 点 评 数量 直方 图 ，y 轴 使 用 对 数 标 度 


一 种 解决 方法 是 对 计数 值 进 行 区 间 量化 ， 然 后 使 用 量化 后 的 结果 。 换 言 之 ， 我 们 将 点 评 数 
量 分 到 多 个 箱子 里 面 ， 去 掉 实际 的 计数 值 。 区 间 量 化 可 以 将 连续 型 数值 映射 为 离散 型 数 
值 ， 我 们 可 以 将 这 种 离散 型 数值 看 作 一 种 有 序 的 分 箱 序 列 ， 它 表示 的 是 对 密度 的 测量 。 


为 了 对 数据 进行 区 间 量 化 ， 必 须 确定 每 个 分 箱 的 宽度 。 有 两 种 确定 分 箱 宽度 的 方法 : 固定 
宽度 分 箱 和 自 适 应 分 箱 。 对 于 每 种 方法 ， 我 们 都 会 给 出 一 个 示例 。 


1. 固定 宽度 分 箱 

通过 国定 宽度 分 箱 ， 每 个 分 箱 中 会 包含 一 个 具体 范围 内 的 数值 。 这 些 范 围 可 以 人 工 定制 ， 

也 可 以 通过 自动 分 段 来 生成 ， 它 们 可 以 是 线性 的 ， 也 可 以 是 指数 性 的 。 例 如 ， 我 们 可 以 按 

10 年 为 一 段 来 将 人 员 划 分 到 多 个 年 龄 范围 中 : 0-9 岁 的 在 分 箱 1 中 、10~19 岁 的 在 分 箱 2 
， 等 等 。 要 将 计数 值 映 射 到 分 箱 ， 只 需 用 计数 值 除 以 分 箱 的 宽度 ， 然 后 取 整 数 部 分 。 
































我 们 也 经 常 使 用 人 工 设 计 的 年 龄 范围 ， 它 可 以 更 好 地 反映 出 生命 阶段 ， 例 如 : 


。 0~12 岁 
12-17 # 
18~24 # 

。 25~34 岁 

。 35~44 岁 
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* 45-54 # 
。 55-64 # 
。 65-74 # 
。 75 岁 以 上 


当 数 值 横 跨 多 个 数量 级 时 ， 最 好 按照 10 的 寡 (或 任何 常数 的 需 ) 来 进行 分 组 : 0~9、 
10~99、100~999、1000~9999， 等 等 。 这 时 分 箱 宽度 是 呈 指 数 增长 的 ， 从 O(10) 到 O(100)、 
O(1000) 以 及 更 大 。 要 将 计数 值 映射 到 分 箱 ， 需 要 取 计 数值 的 对 数 。 指 数 宽度 分 箱 与 对 数 
变换 的 关系 非常 紧密 ， 我 们 将 在 2.3 节 中 讨论 。 例 2-3 演示 了 几 种 分 箱 方法 。 























例 2-3 通过 国定 宽度 分 箱 对 计数 值 进行 区 间 量 化 


>>> import numpy as np 


# 生成 26 个 随机 整数 ， 均 匀 分 布 在 9~99 之 间 
>>> small counts = np.random.randint(0, 100, 20) 
>>> small counts 
array([30, 64, 49, 26, 69, 23, 56, 7, 69, 67, 87, 14, 67, 33, 88, 77, 75, 
47, 44, 93]) 
# 通过 除法 映射 到 间隔 均匀 的 分 箱 中 ， 每 个 分 箱 的 取 值 范围 都 是 0~9 
>>> np.floor divide(small counts, 10) 
array([3, 6, 4, 2, 6, 2, 5, 0, 6, 6, 8, 1, 6, 3, 8, 7, 7, 4, 4, 9], dtype=int32) 


# 横 跨 若干 数量 级 的 计数 值 数组 
>>> large counts = [296, 8286, 64011, 80, 3, 725, 867, 2215, 7689, 11495, 91897, 
€ 44, 28, 7971, 926, 122, 22222] 
# 通过 对 数 函 数 映 射 到 指数 宽度 分 箱 
>>> np.floor(np.log10(large_counts)) 
array([2.; Bes di Aes Ol 20v 2o Bug) BES Ave A du 
3., 2., 2., 4.) 























2. 分 位 数 分 箱 

固定 宽度 分 箱 非 常 容易 计算 ， 但 如 果 计 数值 中 有 比较 大 的 缺口 ， 就 会 产生 很 多 没有 任何 数 
据 的 空 箱子 。 根 据 数据 的 分 布 特点 ， 进 行 自 适 应 的 箱 体 定位 ， 就 可 以 解决 这 个 问题 。 这 种 
方法 可 以 使 用 数据 分 布 的 分 位 数 来 实现 。 








分 位 数 是 可 以 将 数据 划分 为 相等 的 若干 份 数 的 值 。 例 如 ， 中 位 数 〈 即 二 分 位 数 ) 可 以 将 数 
据 划分 为 两 半 ， 其 中 一 半数 据点 比 中 位 数 小 ， 另 一 半数 据点 比 中 位 数 大 。 四 分 位 数 将 数据 
四 等 分 ， 十 分 位 数 将 数据 十 等 分 ， 等 等 。 例 2-4 演示 了 计算 Yelp 商家 点 评 数量 十 分 位 数 的 
方法 。 在 图 2-5 中 ， 我 们 将 十 分 位 数 履 盖 在 直方 图 上 ， 由 此 可 以 更 加 清楚 地 看 出 ， 数 据 是 
向 较 小 的 计数 值 偏 斜 的 。 


例 2-4 计算 Yelp 商家 点 评 数 量 的 十 分 位 数 
>>> deciles = biz df['review count'].quantile([.1, .2, .3, .4, .5, .6, .7, .8, .9]) 
>>> deciles 
0.1 3.0 
0.2 4.0 
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58.0 


ame: review count, dtype: float64 


# 在 直方 图 上 画 出 十 分 位 数 





>>> 
>>> 
>>> 
>>> 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


sns.set style('whitegrid') 

fig, ax = plt.subplots() 

biz df['review count'].hist(ax-ax, bins=100) 
for pos in deciles: 


ax 


handle = plt.axvline(pos, color='r') 


.legend([handle], ['deciles'], fontsize=14) 
ax. 
ax. 
ax. 
ax. 
ax. 


set yscale('log') 

set xscale('log') 

tick params(labelsize-14) 

set xlabel('Review Count', fontsize-14) 
set ylabel('Occurrence', fontsize-14) 
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图 2-5. Yelp 点 评 数据 集中 的 点 评 数量 十 分 位 数 ，x 轴 和 》 轴 都 是 对 数 标 度 


要 计算 分 位 数 并 将 数据 映射 到 分 位 数 分 箱 中 ， 可 以 使 用 Pandas 库 ， 如 例 2-5 所 示 。 
pandas.DataFrame.quantile 和 pandas.Series.quantile 可 以 计算 分 位 数 。pandas.qcut 可 
以 将 数据 映射 为 所 需 的 分 位 数值 。 
例 2-5 通过 分 位 数 对 计数 值 进行 分 箱 

# 继续 使 用 例 2-3 中 的 Large_couts 


>>> import pandas as pd 


# 将 计数 值 映 射 为 分 位 数 








>>> pd.qcut(large counts, 4, labels-False) 
array([1, 2, 3, 0, 0, 1, 1, 2, 2, 3, 3, 0, 0, 2, 1, 0, 3], dtype=int64) 


# 计算 实际 的 分 位 数值 

>>> large counts series = pd.Series(large counts) 
>>> large counts series.quantile([0.25, 0.5, 0.75]) 
0.25 122.0 

0.50 926.0 

0.75 8286.0 

dtype: float64 


2.3 ”对 数 变 换 


一 市 简要 地 介绍 了 通过 取 计 数值 的 对 数 将 数据 映射 到 指数 宽度 分 箱 的 方法 。 这 一 节 ， 我 
深入 地 研究 一 下 这 种 方法 。 


对 数 函 数 是 指数 函数 的 反 函 数 ， 它 的 定义 是 log (a) = x， 其 中 a 是 个 正 的 常数 ,x 可 以 是 
任意 正 数 。 因 为 a = 1， 所 以 有 log,(1) = 0。 这 意味 着 对 数 函 数 可 以 将 (0, 1) 这 个 小 区 间 中 
的 数 映射 到 (-%, 0) 这 个 包括 全 部 负数 的 大 区 间 上 。 函 数 logio(x) 可 以 将 区 间 [1, 10] 映射 到 
[0, 1]， 将 [10, 100] 映射 到 [1, 2]， 以 此 类 推 。 换 言 之 ， 对 数 函 数 可 以 对 大 数值 的 范围 进行 
压缩 ， 对 小 数值 的 范围 进行 扩展 。x 越 大 ，log(x) 增长 得 越 慢 。 


通过 查看 对 数 函 数 的 图 形 ( 见 图 2-6)， 可 以 更 好 地 理解 上 面 的 内 容 。 注 意 一 下 横 轴 上 从 
100 到 1000 的 x 值 是 如 何 被 压缩 到 纵 轴 上 从 2.0 到 3.0 的 y 值 的 ， 小 于 100 的 x 值 只 占 横 
轴 的 一 小 部 分 ， 但 通过 对 数 函 数 的 映射 ， 却 占据 了 纵 轴 的 剩余 部 分 。 
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log10(x) 
a 
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图 2-6: 对 数 函 数 压缩 高 值 区 间 并 扩展 低 值 区 间 
对 于 具有 重 尾 分 布 的 正 数值 的 处 理 ， 对 数 变换 是 一 个 非常 强大 的 工具 。 (与 高 斯 分 布 相 比 ， 





简单 而 又 奇妙 的 数值 | 13 





重 尾 分 布 的 概率 质量 更 多 地 位 于 尾部 。) 它 压缩 了 分 布 高 端的 长 尾 ， 使 之 成 为 较 短 的 尾部 ， 
并 将 低 端 扩展 为 更 长 的 头 部 。 图 2-7 比较 了 对 数 变换 前 后 的 Yelp 商家 点 评 数量 的 直方 医 
( 见 例 2-6)， 两 幅 图 中 的 y 轴 都 是 正常 〈 线 性 ) 标 度 。 在 下 方 的 图 形 中 ， 区 间 (0.5, 1] 中 的 
箱 体 间隔 很 大 ， 是 因为 在 1 和 10 之 间 只 有 10 个 可 能 的 整数 计数 值 。 请 注意 ， 初 始 的 点 评 
数量 严重 集中 在 低 计 数值 区 域 ， 但 有 些 异 常 值 跑 到 了 4000 之 外 。 经 过 对 数 变换 之 后 ， 直 
方 图 在 低 计数 值 的 集中 趋势 被 减弱 了 ， 在 x 轴 上 的 分 布 更 均匀 了 一 些 。 


例 2-6 对 数 变 换 前 后 的 点 评 数 量 分 布 可 视 化 
>>> fig, (ax1, ax2) = plt.subplots(2,1) 
>>> biz df['review count'].hist(ax-axi1, bins=100) 
>>> ax1.tick_params(labelsize=14) 
>>> ax1.set_xlabel('review_count', fontsize=14) 
>>> axi.set_ylabel('Occurrence', fontsize=14) 





























>>> biz df['log review count'].hist(ax-ax2, bins=100) 
>>> ax2.tick params(labelsize-14) 

>>> ax2.set xlabel('logiO(review count))', fontsize-14) 
>>> ax2.set ylabel('Occurrence', fontsize=14) 
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图 2-7: 对 数 变换 前 CE) 后 (下 ) 的 Yelp 商家 点 评 数量 比较 


再 来 看 一 个 例子 一 一 来 自 加 州 大 学 欧文 分 校 机 器 学 习 库 的 在 线 新 闻 流 行 度数 据 集 (Fernandes 
等 ，2015)。 











A 
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在 线 新 闻 流 行 度数 据 集 的 统计 信息 
。 数据 集中 包括 了 Mashable 网 站 发 表 的 39 797 篇 新 闻 文 章 ， 时 间 跨 度 为 2 年 ， 共 有 
60 个 特征 。 











我 们 的 目标 是 使 用 这 些 特征 来 预测 文章 的 流行 度 ， 流 行 度 用 社交 媒体 上 的 分 享 数 表示 。 在 
这 个 例子 中 ， 我 们 只 重点 研究 一 个 特征 一 一 文章 中 的 单词 个 数 。 图 2-8 展示 了 这 个 特征 在 
对 数 变换 前 后 的 直方 图 ( 见 例 2-7)。 请 注意 ， 在 对 数 变换 之 后 ， 特 征 分 布 更 像 是 高 斯 分 布 
了 ， 但 有 一 个 例外 ， 就 是 0 长 度 文章 〈 无 内 容 ) 的 数量 有 一 个 突变 。 


例 2-7 新 闻 文 章 流行 度 分 布 的 可 视 化 ， 使 用 对 数 变换 和 不 使 用 对 数 变 换 
>>> fig, (ax1, ax2) = plt.subplots(2,1) 
>>> df['n tokens content'].hist(ax-axi, bins=100) 
>>> ax1.tick_params(labelsize=14) 
>>> ax1.set_xlabel('Number of Words in Article', fontsize=14) 
>>> ax1.set_ylabel('Number of Articles', fontsize=14) 



































>>> df['log n tokens content'].hist(ax-ax2, bins=100) 

>>> ax2.tick params(labelsize-14) 

>>> ax2.set xlabel('Log of Number of Words', fontsize=14) 
>>> ax2.set ylabel('Number of Articles', fontsize=14) 
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图 2-8. 对 数 变换 前 CE) 后 CR) 的 Mashable 新 闻 文 章 单词 数 比较 
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2.3.1 对 数 变换 实战 

我 们 看 一 下 对 数 变换 在 监督 式 学 习 中 有 什么 作用 。 本 节 会 使 用 前 面 的 两 个 数据 集 。 对 
于 Yelp 点 评 数 据 集 ， 我 们 使 用 点 评 数 量 来 预测 一 个 商家 的 平均 评分 ( 见 例 2-8)。 对 于 
Mashable 新 闻 文 章 数 据 集 ， 我 们 使 用 文章 中 的 单词 数量 来 预测 文章 流行 度 。 因 为 两 个 预 
测 的 输出 都 是 连续 型 数值 ， 所 以 我 们 可 以 使 用 简单 线性 回归 来 构造 模型 。 我 们 使 用 scikit- 


leam， 分 别 在 进行 了 对 数 变换 和 未 进行 对 数 变 换 的 特征 上 进行 10- 折 交叉 验证 的 线性 回归 。 























我 们 使 用 RR 方 分 数 来 评价 模型 ， 它 衡量 的 是 训练 出 的 回归 模型 预测 新 数据 的 能 力 。 良 好 
的 模型 会 有 较 高 的 R 方 分 数 。 完 美的 模型 能 得 到 的 最 大 R 方 分 数 是 1。R 方 分 数 可 以 是 负 
的 ， 一 个 糟糕 的 模型 可 以 得 到 任意 低 的 负 分 。 通 过 交叉 验证 ， 我 们 不 仅 能 得 到 分 数 的 估计 


fü, 





还 能 得 到 它 的 方差 ， 这 有 助 于 我 们 判断 两 种 模型 之 间 的 差异 是 否 是 有 意义 的 。 


例 2-8 使 用 对 数 变换 后 的 Yelp 点 评 数量 预测 商家 的 平均 评分 


>>> import pandas as pd 

>>> import numpy as np 

>>> import json 

>>> from sklearn import linear model 

>>> from sklearn.model_selection import cross_val_score 


# 使 用 前 面 加 载 的 YetLp 点 评 数据 框 ， 计 算 Yetp 点 评 数量 的 对 数 变换 值 。 
# 注意 ， 我 们 为 原始 点 评 数量 加 1， 以 免 当 点 评 数 量 为 0 时 ， 对 数 运算 结果 得 到 负 无 穷 大 。 


>>> biz df['log review count'] = np.log10(biz_df['review_count'] + 1) 
































# 使 用 经 过 对 数 变换 和 未 经 对 数 变换 的 review_count 特 征 ， 训 练 线性 回归 模型 预测 
# 一 个 商家 的 平均 星 级 评分 。 比 较 两 种 模型 的 10- 折 交叉 验证 得 分 。 

>>> m orig = linear model.LinearRegression() 

>>> SCOres orig = cross val score(m orig, biz df[['review count']], 
"x biz df['stars'], cv-10) 

>>> m log = linear model.LinearRegression() 

>>> scores log = cross val score(m log, biz df[['log review count']], 
vere biz df['stars'], cv=10) 

>>> print("R-squared score without log transform: %0.5f (+/- %0.5f)" 
sad % (scores orig.mean(), scores orig.std() * 2)) 

>>> print("R-squared score with log transform: %0.5f (+/- %0.5f)" 

n % (scores log.mean(), scores log.std() * 2)) 

R-squared score without log transform: -0.03683 (+/- 0.07280) 
R-squared score with log transform: -0.03694 (+/- 0.07650) 





























从 这 个 实验 的 结果 可 知 ， 这 两 个 简单 模型 〈 经 过 对 数 变换 和 未 经 对 数 变换 ) 对 目标 变量 的 
预测 效果 都 非常 差 ， 经 过 对 数 变 换 的 特征 表现 得 要 更 糟 炎 一些 。 真 让 人 失望 ! 因为 这 两 个 
模型 都 只 使 用 了 一 个 特征 ， 所 以 表现 不 好 也 完全 可 以 理解 ， 但 我 们 本 来 希望 特征 经 过 对 数 
变换 后 会 表现 得 好 一 些 。 


下 






































押 看 看 对 数 变 换 在 在 线 新 闻 流 行 度数 据 集 上 所 起 的 作用 〈 见 例 2-9)。 











例 2-9 使 用 在 线 新 闻 流行 度数 据 集中 经 对 数 变 换 后 的 单词 个 数 预测 文章 流行 度 
# 从 UCI 下 载 在 线 新 闻 流 行 度数 据 集 ， ti ee 


>>> df = pd.read csv('OnlineNewsPopularity.csv', delimiter=', ' 























# 对 n_tokens_content 特 征 进行 对 数 变换 ， 这 个 特征 表示 的 是 一 篇 新 闻 文 章 中 的 单词 
4 (token) 数量 。 
>>> df['log n tokens content'] = np.logiO(df['n tokens content'] + 1) 








# 训练 两 个 线性 回归 模型 来 预测 文章 的 分 享 数 ， 一 个 模型 使 用 初始 的 特征 ， 
E 另 一 个 模型 使 用 对 数 变换 后 的 特征 。 
>>> m orig = linear model.LinearRegression() 
>>> Scores orig = cross val score(m orig, df[['n tokens content']], 
df['shares'], cv-10) 
>>> m log = linear model.LinearRegression() 
>>> scores log = cross val score(m log, df[['log n tokens content']], 
df['shares'], cv=10) 
>>> > print("R- squared score without log transform: %0.5f (+/- %0.5f)" 
is % (scores orig.mean(), scores orig.std() * 2)) 
>>> print("R-squared score with log transform: %0.5f (+/- %0.5f)" 
= % (scores_log.mean(), scores_log.std() * 2)) 
R- squared score without log transform: -0.00242 (+/- 0.00509) 
R-squared score with log transform: -0.00114 (+/- 0.00418) 




















fe C IB e AE Ek, THERE FL I Be 2 M E E AI EDU Ee FEDERE Hd — 
些 。 为 什么 在 这 个 数据 集 上 对 数 变换 起 到 了 积极 作用 ? 通过 检查 输入 特征 和 目标 值 的 散 点 
图 ( 见 例 2-10) ， 我 们 可 以 得 到 一 些 启 发 。 从 图 2-9 中 下 方 的 图 可 以 看 出 ， 对 数 变换 重组 了 
x 轴 ， 对 于 那些 目标 变量 值 异 常 巨 大 (>200 000 个 分 享 ) 的 文章 ， 对 数 变换 将 它们 更 多 地 
dul] f x 轴 的 右 侧 ， 这 就 为 线性 模型 在 输入 特征 空间 的 低 值 端 争取 了 更 多 的 “呼吸 空间 ”。 
如 果 不 进行 对 数 变换 (图 2-9 中 上 方 的 图 )， 模 型 就 会 面临 更 大 的 压力 ， 要 在 输入 变化 很 小 
的 情况 下 去 拟 合 变化 非常 大 的 目标 值 。 


例 2-10 新 闻 流 行 度 预测 问题 中 输入 和 输出 相关 性 的 可 视 化 
>>> fig2, (ax1, ax2) = plt.subplots(2,1) 
>>> ax1.scatter(df['n tokens content'], df['shares']) 
>>> ax1.tick params(labelsize-14) 
>>> ax1.set xlabel('Number of Words in Article', fontsize=14) 
>>> ax1.set ylabel('Number of Shares', fontsize=14) 
























































>>> ax2.scatter(df['log n tokens content'], df['shares']) 

>>> ax2.tick params(labelsize-14) 

>>> ax2.set xlabel('Log of the Number of Words in Article', fontsize=14) 
>>> ax2.set ylabel('Number of Shares', fontsize=14) 
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图 2-9: 在 线 新 闻 流 行 度数 据 集中 表示 单词 数 (输入 ) 和 分 享 数 (Bin) 关系 的 散 点 图 。 上 图 表示 初 


始 特征 ， 下 图 是 经 过 对 数 变换 后 的 散 点 图 











我 们 针对 Yelp 点 评 数据 集 也 绘 出 散 点 图 ( 见 例 2-11)， 再 和 图 2-9 比较 一 下 。 图 2-10 看 上 
去 与 图 2-9 非常 不 一 样 ， 平 均 星 级 评分 是 离散 的 ， 以 半 颗 星 的 增 量 从 1 逐渐 增加 到 5。 很 
高 的 评价 数量 (29 2500 个 评价 以 上 ) 确实 与 高 的 平均 星 级 评分 相关 ， 但 关系 远 非 线性 。 























没有 明确 的 方法 能 够 画 出 一 条 线 来 基于 任意 一 个 输入 预测 星 级 评分 。 基 本 上 ， 根 据 





图 形 我 


们 就 可 以 知道 ， 评 价 数量 和 它 的 对 数 作 为 平均 星 级 评分 的 线性 预测 器 ， 表 现 得 都 非常 








糟糕 。 
例 2-11 Yelp 商家 点 评 预测 中 的 输入 和 输出 相关 性 可 视 化 


>>> fig, (ax1, ax2) = plt.subplots(2,1) 

>>> axi1.scatter(biz df['review count'], biz df['stars']) 
>>> ax1.tick_params(labelsize=14) 

>>> ax1.set_xlabel('Review Count', fontsize=14) 

>>> ax1.set_ylabel('Average Star Rating', fontsize=14) 


>>> ax2.scatter(biz df['log review count'], biz df['stars']) 
>>> ax2.tick params(labelsize-14) 

>>> ax2.set xlabel('Log of Review Count', fontsize=14) 

>>> ax2.set ylabel('Average Star Rating', fontsize=14) 
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B 2-10; 


Yelp 点 评 数据 集中 表示 点 评 数量 CLA) 和 评价 星 级 评分 (目标) 关系 的 散 点 图 。 上 图 使 
用 原始 点 评 数量 ， 下 图 使 用 经 对 数 变换 后 的 点 评 数量 


数据 可 视 化 的 重要 性 

我 们 在 两 个 不 同 的 数据 集中 比较 了 对 数 变换 的 效果 ， 并 展示 了 数据 可 视 化 的 
重要 性 。 这 里 ， 我 们 特意 使 用 了 非常 简单 的 输入 特征 和 目标 变量 ， 以 便 非 常 
容易 地 对 它们 之 间 的 关系 进行 可 视 化 。 像 图 2-10 这 样 的 图 形 可 以 立刻 揭示 
出 ， 我 们 选择 的 模型 〈 线 性 模型 ) 不 可 能 表示 相应 的 输入 和 目标 之 间 的 关 
系 。 另 一 方面 ， 在 给 定 平均 星 级 评分 的 情况 下 ， 我 们 可 以 令 人 信服 地 做 出 点 
评 数量 的 分 布 模型 。 在 构建 模型 时 ， 使 用 可 视 化 方法 查看 一 下 输入 和 输出 之 
间 以 及 各 个 输入 特征 之 间 的 关系 是 一 种 非常 好 的 做 法 。 



































2.3.2 ”指数 变换 : 对 数 变换 的 推广 


指数 变换 


是 个 变换 族 ， 对 数 变 换 只 是 它 的 一 个 特例 。 用 统计 学 术语 来 说 ， 它 们 都 是 方差 稳 


定 化 变换 。 要 理解 为 什么 方差 稳定 是 个 好 性 质 ， 可 以 考虑 一 下 泊 松 分 布 。 泊 松 分 布 是 一 种 
重 尾 分 布 ， 它 的 方差 等 于 它 的 均值 。 因 此 ， 它 的 质心 越 大 ， 方差 就 越 大 ， 重 尾 程度 也 越 
大 。 指 数 变 换 可 以 改变 变量 的 分 布 ， 使 得 方差 不 再 依赖 于 均值 。 例 如 ， 假 设 一 个 随机 变量 
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和 具有 泊 松 分 布 ， 如 果 通 过 取 它 的 平方 根 对 它 进 行 变换 ， 那 么 部 = x 的 方差 就 近似 是 一 
个 常数 ， 而 不 是 与 均值 相等 。 


2-11 表示 出 了 4 对 泊 松 分 布 的 影响 ,4 表示 泊 松 分 布 的 均值 。 当 4 变 大 时 ， 不 仅 整个 分 
布 模式 向 右 移 动 ， 质 量 也 更 加 分 散 ， 方 差 随 之 变 大 。 


























2-11: 泊 松 分 布 的 粗略 表示 ， 这 是 一 个 方差 随 均值 变 大 的 分 布 示例 
平方 根 变换 和 对 数 变换 都 可 以 简单 推广 为 Box-Cox 变换 : 


x^-1 





(A0) 


x= 
In(x) (A=0) 
2-12 展示 了 414 = 0 (对 数 变换 )、4 = 0.25, 42 0.5 (平方 根 变换 的 一 种 缩放 和 平移 形式 )、 
470.75 fA = 1.5 时 的 Box-Cox 变换 。4 小 于 1 时， 可 以 压缩 高 端 值 ，4 大 于 1 时， 起 的 作 
用 是 相反 的 。 


只 有 当 数 据 为 正 时 ，Box-Cox 公式 才 有 效 。 对 于 非 正 数据 ， 我 们 可 以 加 上 一 个 固定 的 常数 ， 
对 数据 进行 平移 。 当 应 用 Box-Cox 变换 或 更 广义 的 指数 变换 时 ， 必 须 确 定 参数 1 的 值 ， 这 
可 以 通过 极 大 似 然 方法 (找到 能 使 变换 后 信号 的 高 斯 似 然 最 大 化 的 4 值 ) 或 贝 叶 斯 方法 来 
完成 。Box-Cox 和 广义 指数 变换 的 完整 使 用 方法 超出 了 本 书 的 范围 ， 感 兴趣 的 读者 可 以 在 
Johnston 和 DiNardo 的 《计量 经 济 学 方法 》 一 书 中 获得 更 多 的 信息 。 幸 运 的 是 ，SciPy 的 
stats 包 中 有 Box-Cox 变换 的 实现 方法 ， 并 包括 找到 最 优 变 换 参数 的 功能 。 例 2-12 演示 了 
这 种 方法 在 Yelp 点 评 数据 集 上 的 应 用 。 
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2-12: 不 同人 值 的 Box-Cox 变换 


例 2-12 


>>> 


对 Yelp 商家 点 评 数量 的 Box-Cox 变换 


from scipy import stats 


# 接 上 一 个 例子 ， 假 设 biz_df 包 含 YeLp 商 家 点 评 数据 。 
# Box-Cox 变 换 假定 输入 数据 都 是 正 的 。 
# 检查 数据 的 最 小 值 以 确定 满足 假定 。 


>>> 


3 


biz df['review count'].min() 

















# 设置 输入 参数 1 为 96， 使 用 对 数 变换 (没有 固定 长 度 的 位 移 ) 。 


>>> 


# 默认 情况 下 ，SciPy 在 实现 Box-Cox 转 换 时 ， 会 找 出 使 得 输出 最 接近 于 正 态 分 布 的 参数 。 


>>> 
>>> 














rc log = stats.boxcox(biz df['review count'], lmbda-0) 








rC bc, bc params = stats.boxcox(biz df['review count']) 
bc params 


-0.4106510862321085 





例 2-13 


>>> 


# 初始 点 评 数量 直方 图 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 








初始 、 对 数 变换 后 和 Box-Cox 变换 后 的 点 评 数量 直方 图 可 视 化 


fig, (ax1, ax2, ax3) = plt.subplots(3,1) 




















biz df['review count'].hist(ax-axi, bins-100) 

ax1.set yscale('log') 

ax1.tick params(labelsize-14) 

ax1i.set title('Review Counts Histogram', fontsize=14) 
ax1.set xlabel('') 

ax1.set ylabel('Occurrence', fontsize-14) 


# 对 数 变 换 后 的 点 评 数量 


>>> 
>>> 
>>> 
>>> 


biz_df['rc_log'].hist(ax=ax2, bins=100) 

ax2.set yscale('log') 

ax2.tick params(labelsize-14) 

ax2.set title('Log Transformed Counts Histogram', fontsize-14) 


图 2-13 提供 了 初始 点 评 数量 和 变换 后 点 评 数量 在 分 布 上 的 一 个 可 视 化 比较 〈 见 例 2-13) 。 
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>>> ax2.set xlabel('') 
>>> ax2.set ylabel('Occurrence', fontsize-14) 


# 最 优 Box-Cox 变 换 后 的 点 评 数量 

>>> biz_df['rc_bc'].hist(ax=ax3, bins=100) 

>>> ax3.set yscale('log') 

>>> ax3.tick params(labelsize-14) 

>>> ax3.set title('Box-Cox Transformed Counts Histogram', fontsize=14) 
>>> ax3.set xlabel('') 

>>> ax3.set ylabel('Occurrence', fontsize=14) 
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& 2-13: Box-Cox 变换 后 的 Yelp 商家 点 评 数量 直方 图 (下 ) ， 以 及 初始 点 评 数量 直方 图 CE) 和 对 
变换 后 的 点 评 数量 直方 图 (P) 


概率 图 (probplot) 是 一 种 非常 简单 的 可 视 化 方法 ， 用 以 比较 数据 的 实际 分 布 与 理论 分 布 ， 
它 本 质 上 是 一 种 表示 实测 分 位 数 和 理论 分 位 数 的 关系 的 散 点 图 。 图 2-14 展示 了 Yelp 点 评 
数据 的 两 种 概率 图 ， 分别 是 初始 点 评 数量 、 变 换 后 点 评 数量 的 概率 图 ， 并 和 正 态 分 布 进 行 
了 对 比 ( 见 例 2.14)。 因 为 观测 数据 肯定 是 正 的 ， 而 高 斯 分 布 可 以 是 负 的 ， 所 以 在 负数 证 




















实测 分 位 数 和 理论 分 位 数 不 可 能 匹配 。 因 此 ， 我 们 只 关注 正 数 部 分 。 于 是 ， 我 们 可 以 看 出 
与 正 态 分 布 相 比 ， 初 始 的 点 评 数量 具有 明显 的 重 尾 特 征 。( 排 序 后 的 值 可 以 达到 4000 以 
上 ， 而 理论 分 位 数 只 能 到 达 4 左右 。) 普通 对 数 变换 和 最 优 Box-Cox 变换 都 可 以 将 正 尾 部 
拉 近 正 态 分 布 。 根 据 图 形 明显 可 以 看 出 ， 相 比 对 数 变 换 ， 最 优 Box-Cox 变换 对 尾部 的 压缩 
更 强 ， 它 使 得 尾部 变 平 ， 跑 到 了 红色 等 值 斜 线 下 面 。 


例 2-14 初始 和 变换 后 点 评 数 量 的 概率 图 ， 并 和 正 态 分 布 进行 对 比 
>>> fig2, (ax1, ax2, ax3) = plt.subplots(3,1) 
>>> probi = stats.probplot(biz df['review count'], dist=stats.norm, plot=ax1) 
>>> ax1.set_xlabel('') 
>>> ax1.set_title('Probplot against normal distribution' ) 
>>> prob2 = stats.probplot(biz_df['rc_log'], dist=stats.norm, plot=ax2) 
>>> ax2.set xlabel('') 
>>> ax2.set title('Probplot after log transform') 
>>> prob3 = stats.probplot(biz df['rc bc'], dist=stats.norm, plot=ax3) 
>>> ax3.set xlabel('Theoretical quantiles') 
>>> ax3.set title('Probplot after Box-Cox transform!) 
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图 2-14. 原始 点 评 数量 及 变换 后 点 评 数量 的 分 布 与 正 态 分 布 的 对 比 
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2.4 特征 缩放 / 归 一 化 


有 些 特征 的 值 是 有 界限 的 ， 比 如 经 度 和 纬度 ， 但 有 些 数值 型 特征 可 以 无 限制 地 增加 ， 比 如 
计数 值 。 有 些 模 型 是 输入 的 平滑 函数 ， 比 如 线性 回归 模型 、 逻 辑 回归 模型 或 包含 矩阵 的 模 
型 ， 它 们 会 受到 输入 尺度 的 影响 。 相 反 ， 那 些 基 于 树 的 模型 则 根本 不 在 乎 输入 尺度 有 多 
大 。 如 果 模 型 对 输入 特征 的 尺度 很 敏感 ， 就 需要 进行 特征 缩放 。 顾 名 思 义 ， 特 征 缩放 会 改 
变 特征 的 尺度 ， 有 些 人 将 其 称 为 特征 归 一 化 。 特 征 缩放 通常 对 每 个 特征 独立 进行 。 下 面 讨 
论 几 种 常用 的 特征 缩放 操作 ， 每 种 操作 都 会 产生 一 种 不 同 的 特征 值 分 布 。 












































2.4.4 min-max 缩 放 

邻 x 是 一 个 独立 的 特征 值 ( 即 某 个 数据 点 中 的 特征 值 )，min(x) 和 max(x) 分 别 为 这 个 特征 
在 整个 数据 集中 的 最 小 值 和 最 大 值 。min-max 缩放 可 以 将 所 有 特征 值 压缩 (或 扩展 ) 到 [0, 1] 
区 间 中 。 图 2-15 演示 了 这 个 过 程 。min-max 缩放 的 公式 如 下 : 
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B 2-15: min-max 缩放 示意 图 


2.4.2 ”特征 标准 化 /方差 缩放 


特征 标准 化 可 以 用 下 面 的 公式 来 定义 : 
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x —mean(x) 
sqrt(var(x)) 
它 先 减 去 特征 的 均值 (对 所 有 数据 点 )， 再 除 以 方差 ， 因 此 又 称 为 方差 缩放 。 缩 放 后 的 特 
征 均值 为 0， 方 差 为 1。 如 果 初 始 特征 服从 高 斯 分 布 ， 那 么 缩放 后 的 特征 也 服从 高 斯 分 布 。 
图 2-16 是 这 种 标准 化 的 示意 图 。 


x= 





























标准 化 














图 2-16: 特征 标准 化 示意 图 


TE “hie” PRAHE! 

在 稀疏 特征 上 执行 min-max 缩放 和 标准 化 时 一 定 要 慎重 ， 它 们 都 会 从 原始 特 
征 值 中 减 去 一 个 量 。 对 于 min-max 缩放 ， 这 个 平移 量 是 当前 特征 所 有 值 中 的 
最 小 值 ， 对 于 标准 化 ， 这 个 量 是 均值 。 如 果 平 移 量 不 是 0， 那么 这 两 种 变换 
会 将 一 个 多 数 元 素 为 0 的 稀 玻 特征 向 量变 成 密集 特征 向 量 。 根 据 实现 方式 的 
不 同 ， 这 种 改变 会 给 分 类 器 带 来 巨大 的 计算 负担 (按照 现在 的 表示 方法 ， 特 
征 向 量 中 包含 没有 出 现在 一 篇 文档 中 的 所 有 单词 ， 不 用 说 ， 这 种 特征 向 量变 
为 密集 向 量 是 非常 可 怕 的 )。 词 袋 就 是 一 种 稀 政 的 表示 方式 ， 大 多 数 分 类 算 
PAIS SL ABEL A Hae A ETT T PCH. 





























2.4.3 22 归 一 化 
这 种 归 一 化 技术 是 将 初始 特征 值 除 以 一 个 称 为 范 数 的 量 , ? 范 数 又 称 为 欧 几 里 得 范 数 ， 
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它 的 定义 如 下 : 

FE 

€ 范 数 是 坐标 空间 中 向 量 长 度 的 一 种 测量 。 它 的 定义 可 以 根据 著名 的 毕 达 哥 拉 斯 定理 (给 

定 一 个 直角 三 角形 两 条 直角 边 的 长 度 ， 可 以 求 出 斜 边 的 长 度 ) 导出 : 
bl eene 


€ TEC BUG BE PREMERA, PRP. £ext 归 一 化 后 ， 特 
征 列 的 范 数 就 是 1。 有 时 候 这 种 处 理 又 称 为 忆 缩 放 。( 不 严格 地 说 ， 缩 放 意味 着 乘 以 一 个 
常数 ， 而 归 一 化 可 以 包括 多 种 操作 。) 图 2-17 演示 了 归 一 化 的 过 程 。 


x= 




















£3 —4tU 














2-17; f 特征 归 一 化 示意 图 


数据 空间 与 特征 空间 

请 注意 ， 图 2-17 的 演示 中 使 用 的 是 数据 空间 ， 不 是 特征 空间 。 除 了 对 特征 进 
行 归 一 化 ， 也 可 以 对 数据 点 进行 归 一 化 ， 这 会 得 到 带 有 单位 范 数 ( 范 数 
为 1) 的 数据 向 量 。 参 见 3.1.1 节 中 关于 数据 向 量 和 特征 向 量 互补 关系 的 讨论 。 



































不 论 使 用 何 种 缩放 方法 ， 特 征 缩放 总 是 将 特征 除 以 一 个 常数 〈 称 为 归 一 化 常数 )。 因 此 ， 它 
不 会 改变 单 特征 分 布 的 形状 。 我 们 使 用 在 线 新 闻 文 章 单词 数量 来 说 明 这 一 点 ( 见 例 2-15)。 


例 2-15 特征 缩放 示例 
>>> import pandas as pd 
>>> import sklearn.preprocessing as preproc 
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# 加 载 在 线 新 闻 流行 度数 据 集 


>>> df = pd.read_csv('OnlineNewsPopularity.csv', delimiter=', ') 











# 查看 原始 数据 一 一 文章 中 的 单词 数量 
>>> df['n_tokens_content'].as_matrix() 
array([ 219., 255., 211., ..., 442., 682., 157.]) 





# min-max 缩 放 

>>> df['minmax'] = preproc.minmax scale(df[['n tokens content']]) 

>>> df['minmax'].as matrix() 

array([ 0.02584376, 0©.03009205, 0©.02489969, ..., ©.05215955, 
0.08048147, 0.01852726]) 





# 标准 化 一 一 注意 根据 标准 化 的 定义 ， 有 些 结果 会 是 负 的 
>>> df['standardized'] = preproc.StandardScaler().fit transform(df[['n_tokens_ 
content']]) 
>>> df['standardized'].as_matrix() 
array([-0.69521045, -0.61879381, -0.71219192, ..., -0.2218518 , 
0.28759248, -0.82681689]) 

















# L2- 归 一 化 
>>> df['l2 normalized'] = preproc.normalize(df[['n tokens content']], axis-0) 
>>> df['l2 normalized'].as matrix() 
array([ 0.00152439, 20.00177498, 0.00146871, ..., 0©.00307663, 
0.0047472 , 0.00109283]) 





我 们 还 可 以 对 通过 其 他 特征 缩放 方法 得 到 的 数据 分 布 进行 可 视 化 〈 见 图 2-18)。 如 例 2-16 
所 示 ， 与 对 数 变换 不 同 ， 特 征 缩放 不 改变 分 布 的 形状 ， 只 有 数据 尺度 发 生 了 变化 。 


例 2-16 绘制 原始 数据 和 缩放 后 数据 的 直方 图 
>>> fig, (ax1, ax2, ax3, ax4) = plt.subplots(4,1) 
>>> fig.tight layout() 
>>> df['n tokens content'].hist(ax-ax1, bins=100) 
>>> ax1.tick params(labelsize-14) 
>>> ax1.set xlabel('Article word count', fontsize-14) 
>>> ax1.set_ylabel('Number of articles', fontsize-14) 








>>> df['minmax'].hist(ax-ax2, bins-100) 

>>> ax2.tick params(labelsize-14) 

>>> ax2.set xlabel('Min-max scaled word count', fontsize=14) 
>>> ax2.set ylabel('Number of articles', fontsize=14) 


>>> df['standardized'].hist(ax=ax3, bins=100) 

>>> ax3.tick params(labelsize-14) 

>>> ax3.set xlabel('Standardized word count', fontsize=14) 
>>> ax3.set ylabel('Number of articles', fontsize-14) 


>>> df['l2 normalized'].hist(ax-ax4, bins-100) 

>>> ax4.tick params(labelsize-14) 

>>> ax4.set xlabel('L2-normalized word count', fontsize=14) 
>>> ax4.set ylabel('Number of articles', fontsize=14) 
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B 2-18: 原始 及 缩放 后 的 新 闻 文章 单词 数量 。 注 意 只 有 X MORERET SI, MEBIN 
形状 保持 不 变 


当 一 组 输入 特征 的 尺度 相差 很 大 时 ， 就 需要 进行 特征 缩放 。 例 如 ， 一 个 人 气 很 高 的 商业 网 
站 的 日 访问 量 可 能 是 几 十 万 次 ， 而 实际 购买 行为 可 能 只 有 几 千 次 。 如 果 这 两 个 特征 都 被 模 
型 所 使 用 ， 那 么 模型 就 需要 在 确定 如 何 使 用 它们 时 先 平 衡 一 下 尺度 。 如 果 输 入 特征 的 尺度 
差别 非常 大 ， 就 会 对 模型 训练 算法 带 来 数值 稳定 性 方面 的 问题 。 在 这 种 情况 下 ， 就 应 该 对 
特征 进行 标准 化 。 第 4 章 将 详细 介绍 特征 缩放 在 自然 文本 处 理 中 的 应 用 ， 并 给 出 几 个 使 用 
示例 。 








2.5 ”交互 特征 

两 个 特征 的 乘积 可 以 组 成 一 对 简单 的 交互 特征 ， 这 种 相 乘 关系 可 以 用 逻辑 操作 符 AND 来 
类 比 ， 它 可 以 表示 出 由 一 对 条 件 形 成 的 结果 :“ 该 购买 行为 来 自 于 邮政 编码 为 98121 的 地 
区 ”AND“ 用 户 年 龄 在 18 和 35 岁 之 间 ”。 这 种 特征 在 基于 决策 树 的 模型 中 极其 常见 ， 在 
广义 线性 模型 中 也 经 常 使 用 。 


简单 线性 模型 使 用 独立 输入 特征 xm oo, …, x, 的 线性 组 合 来 预测 结果 变 
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y E WX Wy, t+ WX, 





很 容易 对 线性 模型 进行 扩展 ， 使 之 包含 输入 特征 的 两 两 组 合 ， 如 下 所 示 : 





y = WX + WX, o WX, FW XXL + W XX HW XX Ho 





这 样 ， 就 可 以 捕获 特征 之 间 的 交互 作用 ， 因 此 这 些 特征 对 就 称 为 交互 特征 。 如 果 x P x, 
是 二 值 特征 ， 那 么 它们 的 积 xoc, 就 是 逻辑 函数 x, AND x,。 如 果 我 们 的 问题 是 基于 客户 档案 
信息 来 预测 客户 偏好 ， 那 么 在 这 个 例子 中 ,除了 根据 用 户 的 年 龄 或 地 点 这 些 单独 特征 
来 进行 预测 ， 还 可 以 使 用 交互 特征 来 根据 用 户 位 于 某 个 年 龄 段 并 位 于 某 个 特定 地 点 来 进行 
预测 。 


在 例 2-17 中 ， 我 们 使 用 了 来 自 UCI 在 线 新 闻 流 行 度数 据 集 中 的 交互 特征 对 来 预测 每 篇 新 
闻 文 章 的 分 享 数量 。 从 结果 可 以 看 出 ， 与 单一 特征 相 比 ， 交 互 特征 使 准确 率 有 了 一 定 提 


升 。 两 种 方法 的 表现 都 优 于 例 2-9， 其 中 我 们 使 用 (未 经 对 数 变换 和 对 数 变换 后 的 ) 文章 
中 的 单词 数 作为 唯一 预测 特征 。 


例 2-17 预测 中 的 交互 特征 示例 


>>> from sklearn import linear_model 
>>> from sklearn.model selection import train test split 
>>> import sklearn.preprocessing as preproc 







































































# 假设 df 是 一 个 Pandas 数 据 框 ， 其 中 包含 了 UCI 在 线 新 闻 流 行 度数 据 集 

>>> df.columns 

Index(['url', 'timedelta', 'n tokens title', 'n tokens content', 
'n unique tokens', 'n non stop words', 'n non stop unique tokens', 
'num hrefs', 'num self hrefs', 'num imgs', 'num videos', 
'average token length', 'num keywords', 'data channel is lifestyle', 
'data channel is entertainment', 'data channel is bus', 
'data channel is socmed', 'data channel is tech', 
'data channel is world', 'kw min min', 'kw max min', 'kw avg min', 
'kw min max', 'kw max max', 'kw avg max', 'kw min avg', 'kw max avg', 
'kw avg avg', 'self reference min shares', 'self reference max shares', 
'self reference avg sharess', 'weekday is monday', 'weekday is tuesday', 
'weekday is wednesday', 'weekday is thursday', 'weekday is friday', 
'weekday is saturday', 'weekday is sunday', 'is weekend', 'LDA 00', 
'LDA 01', 'LDA 02', 'LDA 03', 'LDA 04', 'global subjectivity', 
'global sentiment polarity', 'global rate positive words', 
'global rate negative words', 'rate positive words', 
'rate negative words', 'avg positive polarity', 'min positive polarity', 
'max positive polarity', 'avg negative polarity', 
'min negative polarity', 'max negative polarity', 'title subjectivity', 
'title sentiment polarity', 'abs title subjectivity', 
'abs title sentiment polarity', 'shares'], 

dtype='object') 











T 








# 选择 与 内 容 有 关 的 特征 作为 模型 的 单一 特征 ， 名 略 那 些 衍 生 特征 
>>> features = ['n tokens title', 'n tokens content', 
'n unique tokens', 'n non stop words', 'n non stop unique tokens', 
'num hrefs', 'num self hrefs', 'num imgs', 'num videos', 
'average token length', 'num keywords', 'data channel is lifestyle', 
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'data channel is entertainment', 'data channel is bus', 
'data channel is socmed', 'data channel is tech', 
'data channel is world'] 
>>> X = df[features] 
df[['shares']] 


>>> y 





# 创建 交互 特征 对 ， 跳 过 固定 偏 移 项 

>>> X2 = preproc.PolynomialFeatures(include bias-False).fit transform(X) 
>>> X2.shape 

(39644, 170) 


# 为 两 个 特征 集 创 建 训 练 集 和 测试 集 
>>> X1 train, X1 test, X2 train, X2 test, y train, y test = V 
train test split(X, X2, y, test size-0.3, random state-123) 











>>> def evaluate feature(X train, X test, y train, y test): 
"""Fit a linear regression model on the training set and 
score on the test set""" 
model = linear model.LinearRegression().fit(X train, y train) 
r score - model.score(X test, y test) 
return (model, r score) 


# 在 两 个 特征 集 上 训练 模型 并 比较 R 方 分 数 

>>> (m1，rl) = evaluate feature(X1 train, X1 test, y train, y test) 
>>> (m2, r2) = evaluate feature(X2 train, X2 test, y train, y test) 
>>> print("R-squared score with singleton features: %0.5f" % r1) 
>>> print("R-squared score with pairwise features: %0.10f" % r2) 
R-squared score with singleton features: 0.00924 

R-squared score with pairwise features: 0.0113276523 








交互 特征 的 构造 非常 简单 ， 使 用 起 来 却 代 价 不 菲 。 如 果 线 性 模型 中 包含 有 交互 特征 对 ， 那 
它 的 训练 时 间 和 评分 时 间 就 会 从 O(n) 增加 到 O(w”)， 基 中 是 单一 特征 的 数量 。 

有 若干 种 方法 可 以 绕 过 高 阶 交 互 特 征 所 带 来 的 计算 成 本 。 我 们 可 以 在 构造 出 所 有 交互 特征 
之 后 再 执行 特征 选择 ， 或 者 ， 也 可 以 更 加 精心 地 设计 出 少量 复杂 特征 。 

这 两 种 策略 各 有 千秋 。 特 征 选 择 使 用 计算 手段 为 一 个 具体 问题 选择 出 最 佳 特 征 。( 这 种 
技术 并 不 局 限于 交互 特征 。) 但 是 ， 一 些 特征 选择 技术 仍然 需要 使 用 大 量 特征 去 训练 多 个 


模型 。 






































精心 设计 的 复杂 特征 需要 昂贵 的 成 本 ， 所 以 数量 不 能 大多， 它们 可 以 减少 模型 的 训练 时 
间 ， 但 特征 本 身 会 消耗 很 多 计算 能 力 ， 这 增加 了 模型 评分 阶段 的 计算 成 本 。 第 8 章 中 会 给 
出 儿 个 人 工 设计 (或 机 器 学 习 ) 的 复杂 特征 的 优秀 示例 。 下 面 介绍 儿 种 特征 选择 技术 。 


2.6 ”特征 选择 


特征 选择 技术 可 以 精简 掉 无 用 的 特征 ， 以 降低 最 终 模 型 的 复杂 性 ， 它 的 最 终 目的 是 得 到 一 个 
简约 模型 ， 在 不 降低 预测 准确 率 或 对 预测 准确 率 影响 不 大 的 情况 下 提高 计算 速度 。 为 了 得 到 
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这 样 的 模型 ， 有 些 特征 选择 技术 需要 训练 不 止 一 个 待 选 模型 。 换 言 之 ， 特 征 选 择 不 是 为 了 减 
少 训练 时 间 (实际 上 ， 一 些 技术 会 增加 总 体 训练 时 间 )， 而 是 为 了 减少 模型 评分 时 间 。 





粗略 地 说 ， 特 征 选择 技术 可 以 分 为 以 下 三 类 。 


wis 
过 滤 技 术 对 特征 进行 预 处 理 ， 以 除去 那些 不 太 可 能 对 模型 有 用 处 的 特征 。 例 如 ， 我 们 可 
以 计算 出 每 个 特征 与 响应 变量 之 间 的 相关 性 或 互信 息 ， 然 后 过 滤 掉 那些 在 某 个 国 值 之 下 
的 特征 。 第 3 章 将 讨论 用 于 文本 特征 的 这 种 技术 。 过 滤 技 术 的 成 本 比 下 面 描述 的 打包 技 
术 低 廉 得 多 ， 但 它们 没有 考虑 我 们 要 使 用 的 模型 ， 因 此 ， 它 们 有 可 能 无 法 为 模型 选择 出 
正确 的 特征 。 我 们 最 好 谨慎 地 使 用 预 过 滤 技 术 ， 以 免 在 有 用 特征 进入 到 模型 训练 阶段 之 
前 不 经 意 地 将 其 删除 。 


打包 方法 

这 些 技术 的 成 本 非常 高 晶 ， 但 它们 可 以 试验 特征 的 各 个 子 集 ， 这 意味 着 我 们 不 会 意外 地 
删除 那些 本 身 不 提供 什么 信息 但 和 其 他 特征 组 合 起 来 却 非常 有 用 的 特征 。 打 包 方 法 将 模 
型 视 为 一 个 能 对 推荐 的 特征 子 集 给 出 合理 评分 的 黑 盒 子 。 它 们 使 用 另外 一 种 方法 迭代 地 
对 特征 子 集 进行 优化 。 








































































































嵌入 式 方 法 

这 种 方法 将 特征 选择 作为 模型 训练 过 程 的 一 部 分 。 例 如 ， 特 征 选 择 是 决策 树 与 生 俱 来 的 
一 种 功能 ， 因 为 它 在 每 个 训练 阶段 都 要 选择 一 个 特征 来 对 树 进 行 分 割 。 另 一 个 例子 是 
C 正则 项 ， 它 可 以 添加 到 任意 线性 模型 的 训练 目标 中 。Z2 正则 项 鼓励 模型 使 用 更 少 的 特 
征 ， 而 不 是 更 多 的 特征 ， 所 以 又 称 为 模型 的 稀 下 性 约束 。 艇 入 式 方 法 将 特征 选择 整合 为 
模型 训练 过 程 的 一 部 分 。 它 们 不 如 打包 方法 强大 ， 但 成 本 也 远 不 如 打包 方法 那么 高 。 与 
过 涯 技术 相 比 ， 和 通信 式 方 法 可 以 选择 出 特别 适合 某 种 模型 的 特征 。 从 这 个 意义 上 说 ， 符 
入 式 方法 在 计算 成 本 和 结果 质量 之 间 实 现 了 某 种 平衡 。 


特征 选择 的 完整 操作 方法 超出 了 本 书 范围 ， 对 此 感 兴 趣 的 读者 可 以 参考 Guyon 和 Elisseeff 
在 2003 年 做 的 文献 综述 。 























2.7 小 结 


本 章 讨论 了 几 种 常用 的 数值 型 特征 工程 技术 ， 比 如 区 间 量 化 、 缩 放 〈 即 归 一 化 )、 对 数 变 
换 (指数 变换 的 一 种 ) 和 交互 特征 ， 并 对 特征 选择 技术 进行 了 简介 ， 这 对 于 处 理 大 量 交 互 
特征 是 必需 的 。 在 统计 机 器 学 习 中 ， 所 有 数据 最 终 都 会 转化 为 数值 型 特征 。 因 此 ， 所 有 特 
征 工 程 最 终 都 会 归结 为 某 种 数值 型 特征 工程 技术 。 请 熟练 掌握 本 章 介绍 的 这 些 技术 ， 最 终 
完成 特征 工程 吧 ! 





























简单 而 又 奇妙 的 数值 | 31 





2.8 ”参考 文献 


Bertin-Mahieux, Thierry, Daniel P.W. Ellis, Brian Whitman, and Paul Lamere. The Million 
Song Dataset [C]. Proceedings of the 12th International Society for Music Information Retrieval 
Conference (2011): 591—596. 


Fernandes, K., P. Vinagre, and P. Cortez. A Proactive Intelligent Decision Support System for 
Predicting the Popularity of Online News [C]. Proceedings of the 17th Portuguese Conference on 
Artificial Intelligence (2015): 535—546. 


Guyon, Isabell, and André Elisseeff. An Introduction to Variable and Feature Selection [J]. 
Journal of Machine Learning Research Special Issue on Variable and Feature Selection 3 (2003): 
1157-1182. 


Johnston, Jack, and John DiNardo. Econometric Methods [M]. 4th ed. New York: McGraw Hill, 
1997. 





第 3 章 


文本 数据 ， 局 平 化 、 过 滤 和 分 块 





如 果 你 想 设 计 一 种 算法 来 分 析 以 下 一 段 文 本 ， 应 该 怎么 做 呢 ? 


Emma knocked on the door. No answer. She knocked again and waited. There was 
a large maple tree next to the house. Emma looked up the tree and saw a giant raven 
perched at the treetop. Under the afternoon sun, the raven gleamed magnificently. Its 
beak was hard and pointed, its claws sharp and strong. It looked regal and imposing. 
It reigned the tree it stood on. The raven was looking straight at Emma with its beady 
black eyes. Emma felt slightly intimidated. She took a step back from the door and 
tentatively said, “Hello?” 


这 段 文本 包含 了 很 多 信息 。 我 们 可 以 知道 ， 其 中 有 个 叫 Emma 的 人 ， 还 有 一 只 乌鸦 、 一 栋 


房子 和 一 棵 树 。Emma 试图 进入 这 栋 房 子 ， 却 看 到 了 乌鸦 。 乌 鸦 很 威武 奴 壮 ， 并 注意 到 了 
Emma, Emma 有 点 胆 层 ,但 仍 鼓 起 勇气 打 了 个 招呼 。 




















那么 ， 从 这 个 信息 宝藏 中 我 们 能 提取 出 哪些 显著 特征 呢 ? 首先 ， 我 们 似乎 应 该 提取 出 主要 
角色 的 名 称 ，Emma 和 乌鸦 。 其 次 ， 我 们 也 不 能 忽略 房屋 、 门 和 树 这 种 环境 因素 。 但 是 ， 
那些 关于 乌鸦 的 描写 应 该 怎么 办 呢 ?” Emma 的 那些 行为 一 散 门 、 后 退 和 打招呼 一 一 该 怎 
么 处 理 呢 ? 











本 章 将 介绍 用 于 文本 的 特征 工程 的 基础 知识 。 我 们 从 词 袋 开始 ， 这 是 基于 单词 数量 统计 的 
最 简单 的 文本 特征 表示 方法 。 与 词 袋 密切 相关 的 一 种 转换 技术 是 tidf， 它 本 质 上 是 一 种 
特征 缩放 技术 ， 我 们 将 用 专门 的 一 章 〈 下 一 章 ) 来 充分 讨论 这 种 技术 。 在 本 章 中 ， 我 们 首 
先 介 绍 如 何 从 文本 中 提取 特征 ， 然 后 再 研究 一 下 如 何 过 滤 和 清洁 这 些 特 征 。 
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31 TES: 将 自然 文本 转换 为 扁平 向 量 











对 于 文本 数据 ， 我 们 可 以 从 一 个 生 











BoW)。 这 个 单词 数量 列表 并 不 试图 





是 建立 机 器 学 习 模 型 ， 还 是 构建 特征 ， 既 简单 又 可 以 解释 的 结果 自然 是 非常 好 的 。 简 

事情 很 容易 尝试 ， 相 对 于 复杂 的 特征 和 模型 ， 

简单 明了 的 特征 不 一 定 会 得 到 最 准确 的 模型 ,但 从 简单 开始 并 且 仅 在 绝对 必要 的 时 候 才 添 
Zu 





解释 的 特征 和 模型 更 易于 调试 。 虽 然 








和 词 数量 的 统计 列表 开始 ， 这 称 为 词 袋 (bag-of-words， 
找 出 有 意义 的 实体 ， 比 如 Emma 或 raven (乌鸦 )。 但 


这 两 个 单词 在 我 们 的 示例 文本 中 被 提 及 了 多 次 ， 它 们 出 现 的 次 数 远 高 于 那些 随机 出 现 的 














单词 ， 比 如 “hello "。 对 于 像 文档 分 类 这 样 的 简单 任务 来 说 ， 单 词 数 量 统计 通常 就 够 用 了 。 








这 种 技术 还 可 以 用 于 信息 提取 ， 它 的 目标 是 提取 出 一 组 与 查询 文本 相关 的 文档 。 这 两 种 任 
务 都 可 以 凭借 单词 级 别 的 特征 圆满 地 完成 ， 因 为 特定 词 是 否 存 在 于 文档 中 这 个 指标 可 以 很 























好 地 标识 文档 的 主题 内 容 。 


3.1.1 ims 





在 词 袋 特 征 化 中 ， 一 篇 文本 文档 被 转化 为 一 个 计数 向 量 。( 向 量 就 是 二 个 数值 的 集合 。) 这 


个 计数 向 量 包含 词汇 表 中 所 有 可 能 出 现 的 单词 。 如 果 某 个 单词 (比如 “aardvark”) 在 文档 
E 向 量 在 对 应 于 这 个 单词 的 位 置 就 有 一 个 计数 值 3。 如 果 词 汇 表 中 





中 出 现 了 3 次， 那么 特 和 和 





























的 某 个 单词 没有 出 现在 文档 中 ， 那 么 它 的 计数 值 就 是 0。 例 如 ， 文 本 "itis a puppy and it is 























extremely cute” 具 有 图 3-1 中 的 词 袋 表示 。 








itis a puppy and it 
is extremely cute 


原始 文本 词 袋 向 量 








mn 
ED 
mec 
Ed 
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图 3-1; 将 原始 文本 转换 为 词 袋 表 示 


词 袋 将 一 个 文本 文档 转换 为 一 个 扁平 向 量 。 之 所 以 说 这 个 向 量 
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不 包含 原始 文本 中 的 任何 结构 。 原 始 文本 是 一 个 单词 序列 ， 但 词 袋 中 没有 任何 序列 ， 它 
只 记录 每 个 单词 在 文本 中 出 现 的 次 数 。 因 此 ， 如 图 3-2 所 示 ， 向 量 中 单词 的 顺序 根本 不 重 
要 ， 只 要 它 在 数据 集 的 所 有 文档 之 间 保 持 一 致 即 可 。 词 袋 也 不 表示 任何 单词 层次 。 例 如 ， 
“animal” 这 个 概念 包括 “dog”“cat”“raven” 等 ， 但 在 词 袋 表示 中 ， 这 些 单词 在 向 量 中 都 
是 平等 的 元 素 。 





























原始 文本 





itis a puppy and it 
; cat] 

is extremely cute 
aardvark| 
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extremel 
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图 3-2: 两 个 等 价 的 词 袋 向 量 


在 词 袋 表 示 中 ， 重 要 的 是 特征 空间 中 的 数据 分 布 。 在 词 袋 向 量 中 ， 每 个 单词 都 是 向 量 的 一 
个 维度 。 如 果 词 汇 表 中 有 个 单词 ,那么 一 篇 文档 就 是 n 维 空间 中 的 一 个 点 “。 对 于 超过 二 
维 或 三 维 的 任何 分 布 ， 很 难 将 其 可 视 化 ， 所 以 只 好 驰 台 我 们 的 想象 了 。 图 3-3 展示 了 由 单 
词 “puppy” 和 “cute” 所 构成 的 二 维特 征 空间 ， 以 及 我 们 的 例句 在 这 个 空间 中 的 样子 。 















































puppy 


iM --22--d itis a puppy and 
it is extremely cute 





cute 











图 3-9. 二 维特 征 空间 中 的 示例 文本 文档 示意 图 








注 d: 有 时 人 们 会 使 用 “文档 向 量 ” 这 个 术语 。 向 量 从 原点 出 发 ， 终 于 一 个 特定 的 点 。 对 我 们 来 说 ,“ 向 量 ” 
和 “点 ”是 一 回 事 。 
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图 3-4 展示 了 三 维 空间 中 的 3 个 句子 ， 三 维 空间 由 单词 “puppy”“extremely” 和 “cute” 构 成 。 





puppy 







ius enc © is a cute puppy 
7 
4 


d 1 


Ld 
P4 1 
uoc dL Q: is a pdppy and 
it is extremely cute 
1 






=S==5 == itis an extremely 
cute cat 





extremely 











图 3-4. 三 维特 征 空间 中 的 3 个 句子 


这 两 幅 图 表示 的 都 是 特征 空间 中 的 数据 向 量 。 坐 标 轴 表 示 单 词 ， 也 就 是 词 袋 表 示 中 的 特 
征 ， 空 间 中 的 点 表示 数据 点 (文本 文档 )。 有 了 时候 ， 在 数据 空间 中 查看 特征 向 量 也 能 获取 
很 多 信息 。 在 数据 空间 中 ， 特 征 向 量 中 包含 的 是 每 个 数据 点 中 各 个 特征 的 值 。 坐 标 轴 表 示 
各 个 数据 点 ， 甚 中 的 点 表示 特征 向 量 。 图 3-5 给 出 了 一 个 这 样 的 例子 。 通 过 对 文本 文档 的 
词 袋 特征 化 ， 一 个 特征 就 是 一 个 单词 ， 一 个 特征 向 量 由 这 个 单词 在 每 篇 文档 中 出 现 的 次 数 
组 成 。 这 样 ， 一 个 单词 就 可 以 表示 为 “文档 袋 "。 正 如 我 们 将 在 第 4 章 中 看 到 的 ， 这 些 文 
档 袋 向 量 来 自 于 词 袋 向 量 的 矩阵 转 置 。 
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3-5; 文档 空间 中 的 词 向 量 
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词 袋 并 非 完 美 无 缺 ， 将 句子 分 解 为 单词 会 破坏 语义 。 例 如 ,，“not bad” 在 语义 上 是 
“decent" ， 甚 至 是 “good” (特别 是 在 英 式 英语 里 )。 但 “not” 和 “bad” 被 分 开 后 表示 的 是 
一 种 否定 和 负面 的 情感 。“toy dog” Fil “dog toy” 是 差别 很 大 的 两 种 东西 (除非 是 玩具 狗 
的 狗 玩具 )， 但 拆 成 “toy” 和 “dog” 这 两 个 单词 后 ， 都 失去 了 原来 的 意义 。 我 们 还 可 以 轻 
从 地 举 出 很 多 其 他 的 例子 。 我 们 随后 要 介绍 的 n 元 词 袋 可 以 在 某 种 程度 上 解决 这 种 问题 ， 
但 不 是 根本 的 解决 方案 。 我 们 应 该 知道 ， 词 袋 是 一 种 简单 而 有 效 的 启发 式 方法 ， 但 离 正 确 
的 文本 语义 理解 还 相去 甚 远 。 















































3.1.2 nin 

n 元 词 袋 (bag-of-n-grams) 是 词 袋 的 一 种 自然 扩展 。n-gram (n 76i] ) 是 由 n 个 标记 
(token) 组 成 的 序列 。1-gram 就 是 一 个 单词 (word)， 又 称 为 一 元 词 (unigram)。 经 过 
分 词 (tokenization) 之 后 ， 计 数 机 制 会 将 单独 标记 转换 为 单词 计数 ,或 将 有 重 倒 的 序列 
作为 n-gram 进行 计数 。 例 如 ， 句 子 “Emma knocked on the door” 会 生成 n-gram "Emma 
knocked" “knocked on” “onthe” 和 “the door", 











n-gram 能 够 更 多 地 保留 文本 中 的 初始 序列 结构 ， 因 此 n 元 词 袋 表 示 法 可 以 表达 更 丰富 的 信 
息 。 然 而 ， 这 不 是 没有 代价 的 。 理 论 上 ， 有 个 不 同 的 单词 ， 就 会 及 个 不 同 的 2-gram 
(又 称 二 元 词 )。 实 际 上 ， 没 有 这 么 多 ， 因 为 不 是 每 个 单词 都 可 以 跟 在 另 一 个 单词 后 面 。 尽 
管 如 此 ，n-gram (n1) 一 般 来 说 也 会 比 单词 多 得 多 。 这 意味 着 n 元 词 袋 是 一 个 更 大 也 更 
PIE Ze A), BERE n 元 词 袋 需要 更 强 的 计算 、 存 储 和 建 模 能 力 。n 越 大 ， 能 表示 
的 信息 越 丰富 ， 相 应 的 成 本 也 会 越 高 。 



































为 了 演示 一 下 n-gram 的 数量 如 何 随 着 的 增 大 而 增长 ( 见 图 3-6) ， 我 们 计算 一 下 Yelp 点 评 
数据 集中 n-gram 的 数量 。 在 例 3-1 中 ， 我 们 使 用 Pandas 和 scikit-leam 中 的 CountVectorizer 
转换 器 计算 出 了 前 10 000 条 点 评 中 的 n-gram 数量 。 








例 3-1 计算 n-gram 
>>> import pandas 
>>> import json 
>>> from sklearn.feature extraction.text import CountVectorizer 


# 加 载 前 16 000 条 点 评 

>>> f = open('data/yelp/v6/yelp academic dataset review.json') 
>>> js = [] 

>>> for i in range(10000): 

P js.append(json.loads(f.readline())) 

>>> f.close() 

>>> review_df = pd.DataFrame(js) 








# 创建 一 元 词 、 二 元 词 和 三 元 词 的 特征 转换 器 。 

# 默认 情况 下 ， 会 忽略 单字 母 词 ， 这 非常 有 实际 意义 ， 
# 因为 会 除去 无 意义 的 词 。 但 在 这 个 例子 中 ， 

# 出 于 演示 的 目的 ， 我 们 会 显 式 地 包含 这 些 词 。 
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>>> 
>>> 


>>> 


bow_converter = CountVectorizer(token_pattern='(?u)\\b\\w+\\b') 

bigram converter = CountVectorizer(ngram_range=(2,2), 
token_pattern='(?u)\\b\\w+\\b') 

trigram_converter = CountVectorizer(ngram_range=(3,3), 
token_pattern='(?u)\\b\\w+\\b') 





# 拟 合 转换 器 ， 查 看 词汇 表 大 小 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


bow converter.fit(review df['text']) 

words - bow converter.get feature names() 

bigram converter.fit(review df['text']) 

bigrams - bigram converter.get feature names() 
trigram converter.fit(review df['text']) 
trigrams - trigram converter.get feature names() 
print (len(words), len(bigrams), len(trigrams)) 


26047 346301 847545 


# 看 一 下 n-gram 


>>> 


words[:10] 


['0', '00', '000', '0002', 'O0am', 'OOish', 'OO0pm', '01', 'Olam', '02'] 


>>> 


bigrams[-10:] 


['zucchinis at', 
'zucchinis took', 
'zucchinis we', 
'zuma over', 
'zuppa di', 
'zuppa toscana', 
'zuppe di', 
'zurich and', 

'zz top', 


'0 
'0 


la'] 


trigrams[:10] 
10 definitely', 
2 also', 

25 per', 

3 miles', 

30 a', 

30 everything', 
30 lb', 

35 tip', 

5 curry', 

5 pork'] 








Yelp 数 据 集 前 10 000 条 点 评 中 唯一 n-gram 的 数量 





800000 


600000 


400000 


200000 








一 元 词 二 元 词 三 元 词 





图 3-6: Yelp 数据 集 前 10 000 条 点 评 中 唯一 n-gram 的 数量 


N : SB 4 
3.2 ”使 用 过 滤 获 取 清 洁 特 征 
如 何 通 过 单词 将 文本 中 的 信号 和 噪声 准确 地 区 分 开 呢 ?使 用 过 滤 ， 那 些 通过 原始 分 词 和 计 
数 来 生成 单词 或 n-gram 列表 的 技术 将 变 得 更 有 用 。 下 面 要 介绍 的 短语 检测 可 以 被 看 作 一 种 
特别 的 二 元 词 过 滤器 。 除 此 之 外 ， 我 们 还 会 介绍 儿 种 其 他 的 过 滤 方 法 。 























3.2.4 停 用 词 

分 类 和 提取 通常 不 要 求 对 文本 进行 深入 的 理解 。 例 如 ， 在 句子 “Emma knocked on the 
door” 中 ,单词 “on” 和 “the” 并 不 能 改变 这 个 句子 是 关于 一 个 人 和 一 局 门 这 样 的 事实 。 
在 像 分 类 这 样 的 粗 粒 度 任务 中 ， 代 词 、 冠 词 和 介词 没有 什么 价值 。 但 在 情感 分 析 中 ， 情 况 
就 完全 不 同 了 ， 它 需要 对 语义 进行 细 粒 度 的 深刻 理解 。 





























Python 中 通用 的 NLP 包 NLTK 中 包含 了 一 个 由 语言 学 家 定义 的 停 用 词 列表 ， 适 用 于 多 种 
语言 。( 你 需要 先 安装 NLTK， 并 运行 nltk.download() 来 获取 完整 功能 。) 在 网 上 也 可 以 
找到 各 种 停 用 词 列表 。 例 如 ， 下 面 是 英语 停 用 词 列表 中 的 一 些 词 : 











a, about, above, am, an, been, didn't, couldn't, i'd, i'll, itself, let's, myself, 
our, they, through, when's, whom, ... 




















注意 ， 这 个 列表 中 包含 撒 号 ， 而 且 单 词 是 小 写 的。 如 果 想 直接 使 用 这 个 列表 ,分 词 过 程 就 
不 能 忽略 撒 号 ， 而 且 要 将 单词 转换 为 小 写 。 
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3.2.2 ”基于 频率 的 过 滤 


停 用 词 列表 是 一 种 剔除 形成 无 意义 特征 的 单词 的 方法 。 还 有 一 些 更 具 统计 性 的 方法 可 以 找 
出 这 些 没 有 实际 意义 的 单词 。 在 搭配 提取 方法 中 ， 有 一 些 依赖 人 工 定义 的 方法 ， 也 有 一 些 
运用 统计 学 的 方法 。 在 单词 过 滤 中 ， 我 们 可 以 应 用 同样 的 思想 ， 也 可 以 使 用 频率 统计 。 














1. 高 频 词 





频率 统计 是 一 种 非常 强大 的 过 污 技 术 ， 既 可 以 过 滤 语 料 库 专用 的 常见 单词 ， 也 可 以 过 滤 通 


用 的 停 用 词 。 例 如 ， 短 语 “New York Times” 以 及 其 中 的 每 个 单词 在 纽约 时 报 注释 语料库 











数据 集 (New York Times Annotated Corpus dataset) 中 都 频繁 出 现 。 同 样 ， 单 词 “house” 
频繁 出 现在 英国 议会 演讲 语料库 (Hansard corpus) 中 的 短语 “House of Commons" (f, iX 
个 语料库 中 的 加 拿 大 议会 辩论 数据 集 常用 于 统计 机 器 翻译 ， 因 为 它 包 括 所 有 文件 的 英文 和 
法 文 版 本 。 这 些 单词 一 般 来 说 是 有 意义 的 ， 但 在 特定 语料库 中 则 不 然 。 典 型 的 停 用 词 列表 
会 包括 通用 的 停 用 词 ， 但 不 包括 语料库 专用 的 停 月 























Hisl, 


检查 一 下 出 现 频率 最 高 的 单词 ， 可 以 发 现 文本 解析 时 的 问题 ， 并 能 标记 出 那些 磁 巧 在 语 料 
库 中 出 现 多 次 的 通常 有 用 的 词 。 举 例 来 说 ， 表 3-1 列 出 了 Yelp 点 评 数据 集中 出 现 频率 最 高 
的 40 个 词 。 这 里 的 频率 指 的 是 包含 这 个 词 的 文档 (点评 ) 数 ， 并 不 是 它 在 一 篇 文档 中 出 
现 的 次 数 。 正 如 我 们 所 看 到 的 ， 这 个 列表 中 有 很 多 停 用 词 。 我 们 还 有 一 些 意外 的 发 现 ， 列 
表 中 有 “s” 和 “t"”， 这 是 因为 我 们 使 用 了 撤 号 作为 分 词 的 分 隔 符 ， 于 是 像 “Mary’s” 或 
“didn"t” 这 样 的 词 就 被 解析 为 “Mary s" fH "didnt", JE^h, "good" “food” fH “great” d 
出 现在 了 大 约 三 分 之 一 的 点 评 中 ， 但 我 们 要 保留 它们 ， 因 为 它们 在 像 情感 分 析 和 商家 分 类 














这 样 的 任务 中 是 非常 有 用 的 。 
表 3-1: Yelp 点 评 数据 集中 出 现 频率 最 高 的 词 


排名 词 文档 频率 
1 the 1 416 058 
2 and 1381 324 
3 a 1 263 126 
4 i 1230214 
5 to 1 196 238 
6 it 1 027 835 
7 of 1 025 638 
8 for 993 430 
9 is 988 547 
10 in 961 518 
11 was 929 703 
12 this 844 824 


























词 文档 频率 
but 822 313 
my 786 595 
that 777 045 
with 775 044 
on 735 419 
they 720 994 
you 701 015 
have 692 749 
t 684 049 
not 649 824 
s 626 764 
had 620 284 











排名 词 文档 频率 排名 词 文档 频率 
25 SO 608 061 33 great 520 634 
26 place 601 918 34 were 516 685 
27 good 598 393 35 there 510 897 
28 at 596 317 36 here 481 542 
29 are 585 548 37 all 478 490 
30 food 562 332 38 if 475 175 
31 be 543 588 39 very 460 796 
32 we 537 133 40 out 460 452 








实际 上 ， 频 率 统计 有 助 于 将 基于 频率 的 过 滤 技 术 与 停 用 词 列表 结合 起 来 ， 但 有 一 个 问题 ， 
就 是 如 何 划 分 二 者 的 界限 。 遗 憾 的 是 ， 这 个 问题 没有 统一 的 答案 。 多 数 情 况 下 ， 需 要 人 为 
地 确定 这 个 界限 ， 而 且 要 随 着 数据 集 的 变化 而 不 断 调 整 。 


2. 罕见 词 

根据 任务 的 不 同 ， 有 了 时 还 需要 过 滤 掉 罕见 词 。 罕 见 词 可 能 是 真正 的 生 售 词 ， 也 可 能 是 拼写 
错误 的 普通 词 。 对 于 统计 模型 来 说 ， 只 在 一 两 篇 文档 中 出 现 的 词 更 像 是 噪声 ， 而 不 是 有 用 
信息 。 例 如 ， 假 设 我 们 的 任务 是 基于 Yelp 点 评 数据 对 商家 进行 分 类 ， 而 且 只 有 一 条 点 评 
中 包含 “gobbledygook” 这 个 词 。 那 么 基于 这 么 一 个 词 ， 我 们 怎么 能 辨别 出 这 个 商家 是 餐 
馆 、 美 发 沙龙 ， 还 是 酒吧 呢 ? 在 这 种 情况 下 ， 即 使 我 们 知道 这 个 商家 是 个 酒吧 ， 如 果 将 包 
含 “gobbledygook” 这 个 词 的 其 他 点 评 划分 为 酒吧 ， 也 很 可 能 是 个 错误 。 


























罕见 词 不 仅 无 法 作为 预测 的 凭据 ， 还 会 增加 计算 上 的 开销 。Yelp 点 评 数据 集中 有 160 万 条 
点 评 数据 ， 包 括 357 481 个 单词 (根据 空格 和 标点 符号 进行 分 词 )， 其 中 有 189 915 个 单词 
只 出 现在 一 条 点 评 中 ， 有 41 162 个 单词 出 现在 两 条 点 评 中 。 词 汇 表 中 60% 以 上 的 词 都 是 
罕见 词 。 这 就 是 所 谓 的 重 尾 分 布 ， 在 实际 数据 中 这 种 分 布 屡见不鲜 。 很 多 统计 机 器 学 习 模 
型 的 训练 时 间 是 随 着 特征 数量 线性 增长 的 ， 但 有 些 模型 则 是 平方 增长 或 更 糟糕 。 罕 见 词 带 
来 了 很 大 的 计算 和 存储 成 本 ， 却 收效 甚 微 。 


在 单词 数量 统计 的 基础 上 ， 我 们 可 以 轻松 地 识别 并 清理 罕见 词 。 或 者 ， 也 可 以 将 罕见 词 的 
数量 累加 到 一 个 特殊 的 垃圾 箱 内 ， 作 为 一 个 附加 特征 。 图 3-7 使 用 一 个 简短 文档 演示 了 这 
种 方法 ， 文 档 中 有 一 些 和 常见 词 ， 以 及 两 个 罕见 词 “gobbledygook” 和 “zylophant " % Wis] 
使 用 它们 本 身 的 计数 ， 可 以 进一步 通过 停 用 词 列 表 或 其 他 基于 频率 的 方法 进行 过 滤 。 对 于 
罕见 词 ， 则 不 做 区 分 ， 统 一 放 到 垃圾 箱 特征 中 。 
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= 
teens] | puppies] 1 | 

I like gobbledygook 
and zylophant. 





















图 3-7; 带 垃 坡 箱 的 词 袋 特征 向 量 


因为 在 对 整个 语料库 进行 计数 统计 之 前 ， 我 们 不 知道 哪些 词 是 罕见 的 ， 所 以 垃圾 箱 特 征 只 
能 在 后 处 理 阶 段 进 行 收集 。 


既然 本 书 讲述 的 是 特征 工程 ， 我 们 的 关注 点 肯定 在 于 特征 。 但 罕见 性 这 个 概念 也 可 以 应 用 
在 数据 点 上 。 如 果 一 个 文本 文档 非常 短 ， 那 么 它 很 可 能 不 会 包含 什么 有 价值 的 信息 ， 在 训 
练 模 型 时 不 应 该 使 用 它 。 但 是 ， 在 应 用 这 条 原则 时 一 定 要 小 心 。Wikipedia dump 语料库 中 
有 很 多 页 还 是 未 完成 状态 ， 过 滤 掉 这 些 页 应 该 是 很 安全 的 。 推 文 则 是 另 一 种 情况 ， 它 天 生 
简短 ， 需 要 专门 的 特征 化 和 建 模 技巧 。 


























3.2.8 i Fie 

文本 的 简单 解析 有 一 个 问题 ， 就 是 同一 个 单词 的 各 种 变 体 会 被 视 为 不 同 的 词 而 分 别 计 数 。 
filan, "flower” 和 “flowers” 在 技术 上 是 两 个 不 同 的 标记 , “swimmer” “swimming” 和 
“swim” 也 是 一 样 的 情况 ， 尽 管 它们 的 含义 非常 相近 。 如 果 这 些 不 同 变 体 能 映射 为 同一 单 
词 ， 那 文本 解析 的 效果 会 更 好 。 


词 干 提取 是 一 种 将 每 个 单词 转换 为 语言 学 中 的 基本 词 干 形式 的 NLP 技术 。 词 干 提取 有 多 种 
方法 ， 有 的 基于 语言 学 规则 ， 有 的 基于 统计 观测 。 有 一 种 算法 子 类 综合 了 词性 标注 和 语言 
规则 ， 这 种 处 理 过 程 称 为 词 形 还 原 。 


多 数 词 干 提取 工具 都 将 英语 作为 重点 ， 但 针对 其 他 语言 的 工具 也 在 过 勃发 展 。Porter 
stemmer 是 应 用 最 为 广泛 的 免费 英语 词 干 提取 工具 。 虽 然 最 初 的 程序 是 用 ANSI C 开发 的 ， 
但 有 很 多 程序 包 对 其 进行 了 包装 ， 提 供 了 各 种 语言 接口 。 



































下 面 是 一 个 通过 Python 的 NLTK 包 运 行 Porter stemmer 的 例子 。 正 如 你 看 到 的 ， 它 适用 于 
很 多 情况 ， 但 不 是 万 能 的 。“goes” 被 映射 到 了 “goe”， 而 “go” 被 映射 到 了 它 本 身 。 











>>> import nltk 
>>> stemmer = nltk.stem.porter.PorterStemmer() 
>>> stemmer.stem('flowers') 
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u'flower' 

>>> stemmer.stem('zeroes') 

u'zero' 

>>> stemmer.stem('stemmer') 

u'stem' 

>>> stemmer.stem('sixties') 

u'sixti' 

>>> stemmer.stem('sixty') 

u'sixty' 

>>> stemmer.stem('goes') 

u'goe' 

>>> stemmer.stem('go') 

u'go' 
词 干 提取 确实 有 一 些 计算 成 本 ， 最 终 的 收益 能 否 超过 成 本 要 视 具体 应 用 而 定 。 值 得 注意 的 
是 ， 使 用 词 干 提取 可 能 得 不 偿 失 。“new” 和 “news” 具 有 非常 不 同 的 意义 ， 但 都 会 被 提取 
为 “new”。 同 样 的 例子 还 有 不 少 。 基 于 这 个 原因 ， 词 干 提取 并 不 是 非 做 不 可 。 


3.3 意义 的 单位 : 从 单词 、n 元 词 到 短语 


词 袋 的 概念 通俗 易 懂 ， 但 计算 机 怎么 知道 什么 是 一 个 单词 呢 ? 一 个 文本 文档 的 数字 化 表示 
就 是 一 个 字符 串 ， 也 就 是 一 个 字符 序列 。 我 们 还 会 遇 到 一 些 半 结 构 化 文档 ， 比 如 JSON F 
FTE HTML 页 面 。 但 即使 添加 了 标记 和 结构 ， 文 本 的 基本 单位 还 是 字符 串 。 我 们 如 何 将 
字符 串 转 换 为 一 个 单词 序列 呢 ? 这 就 需要 文本 的 解析 和 分 词 技术 ， 下 面 就 来 讨论 一 下 。 


3.3.1 解析 与 分 词 

当 字 符 串 不 只 包含 纯 文本 时 ， 解 析 就 是 必须 的 。 例 如 ， 如 果 原 始 数据 是 网 页 、 电 子 邮 件 或 
某 种 日 志 ， 那 么 其 中 就 含有 其 他 结构 。 我 们 需要 确定 如 何 处 理 标 记 、 头 部 和 尾部 ， 以 及 日 
志 中 我 们 不 感 兴趣 的 部 分 。 如 果 文档 是 个 网 页 ， 那 么 解析 程序 还 需要 处 理 URL, An CE 
是 封 电子 邮件 ， 那 么 像 发 件 人 、 收 件 人 和 标题 这 些 域 都 需要 特殊 处 理 ， 否 则 这 些 头 信息 在 
最 终 计 数 中 就 会 和 普通 词 一 样 ， 也 就 失去 作用 了 。 


经 过 简单 解析 之 后 ， 就 可 以 对 文档 的 纯 文 本 部 分 进行 分 词 了 ， 这 会 将 字符 串 一 一 一 个 字符 
序列 一 一 转换 为 一 个 标记 序列 。 每 个 标记 都 可 以 作为 一 个 单词 来 计数 。 分 词 程序 需要 知道 
哪些 字符 表示 一 个 标记 已 经 结束 而 且 另 一 个 标记 已 经 开始 了 。 空 格 通常 是 一 个 非常 好 的 分 
隔 符 ， 标 点 符号 也 是 一 样 。 如 果 文 本 中 包含 推 文 内 容 ， 那 么 井 号 (#) 就 不 应 该 被 用 作 分 
Bat (又 称 定 界 符 ) T. 


有 时 候 ， 分析 需 要 在 句子 上 而 不 是 整个 文档 上 进行 。 例 如 ,nn 元 词 (n-gram) 是 单词 概念 
的 一 个 推广 ， 它 就 不 能 超过 句子 的 边界 。 像 word2vec 这 样 比较 复杂 的 文本 特征 化 方法 也 
是 工作 在 句子 或 段落 上 的 。 在 这 种 情况 下 ， 我 们 需要 先 将 文档 解析 为 句子 ， 然 后 再 对 每 个 
句子 进行 分 词 ， 得 到 单词 。 
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字符 串 对 象 : 并 不 像 你 看 到 的 那么 简单 

字符 串 对 象 有 多 种 编码 方式 ， 比 如 ASCII 或 Unicode。 纯 英文 文本 可 以 用 
ASCII 进行 编码 ， 但 多 数 其 他 语言 需要 使 用 Unicode。 如 果 文 档 中 包括 非 
ASCII 字符 ， 就 要 确保 分 词 程序 可 以 处 理 相 应 的 编码 方式 。 否 则 ， 分 词 结果 
就 会 出 现 错误 。 








3.8.2 通过 搭配 提取 进行 短语 检测 

通过 标记 序列 可 以 立刻 得 到 单词 入 元 词 列表 。 但 是 ， 从 语义 上 说 ， 我 们 更 习惯 于 理解 
短语 ， 而 不 是 nn 元 词 。 在 计算 机 自然 语言 处 理 (NLP) 中 ， 有 用 短语 的 概念 被 称 为 搭配 
(collocation)。 用 Manning 和 Schütze (1999: 151) 的 话 来 说 :“ 搭 配 是 一 种 表达 方式 ， 它 
由 两 个 或 两 个 以 上 的 单词 组 成 ， 并 对 应 于 某 种 约定 俗 成 的 事物 说 明 。” 

搭配 能 表达 的 意义 比 组 成 它 的 各 个 单词 的 总 和 还 要 多 。 例 如 , "strong tea” 的 意义 绝对 不 


ik “great physical strength” 和 “tea”， 因 此 可 以 认为 它 是 个 搭配 。 另 一 方面 ， 短 语 “cute 
puppy” 的 意义 则 就 是 两 个 单词 “cute” 和 “puppy” 之 和 ， 因 此 我 们 认为 它 不 是 个 搭配 。 








搭配 不 一 定 是 个 连贯 的 序列 。 例 如 ， 可 以 认为 句子 “Emma knocked on the door” 包 含 搭配 
“knock door”， 因 此 ， 不 是 所 有 的 搭配 都 是 n 元 词 。 反 之 ， 也 不 是 所 有 n 元 词 都 一 定 是 有 
意义 的 搭配 。 














因为 搭配 的 意义 比 组 成 它 的 各 个 单词 的 总 和 要 多 ， 所 以 单词 计数 不 能 恰当 地 表示 出 它 的 意 
义 。 这 时 用 词 袋 来 表示 就 力不从心 了 ， 用 元 词 袋 表 示 也 有 问题 ， 因 为 n 元 词 袋 中 有 太 多 无 
意义 的 序列 (比如 元 词 袋 示例 中 的 “this is”)， 有 意义 的 序列 (40 knock door) 则 不 够 多 。 





搭配 非常 适合 用 作 特 征 ， 但 我 们 如 何 从 文本 中 发 现 并 提取 它们 呢 ? 一 种 方法 是 进行 预定 
义 。 如 果 我 们 竭尽 全 力 ， 就 可 以 做 出 一 个 包含 多 种 语言 惯用 语 的 综合 性 列表 ， 然 后 就 可 以 
仔细 检查 文本 ， 找 出 所 有 的 匹配 。 这 样 做 成 本 很 高 ， 但 肯定 有 效 。 如 果 语 料 库 只 局 限于 一 
个 特定 领域 ,而 且 有 很 多 专业 的 词语 ， 那 么 这 应 该 是 最 好 的 方法 。 但 这 个 列表 需要 大 量 人 
工 和 干预 ， 并 且 需 要 随 着 语料库 的 发 展 而 频繁 更 新 。 对 于 推 文 、 博 客 和 新 闻 文 章 来 说 ， 这 种 
方法 就 不 太 现实 了 。 





由 于 过 去 20 年 中 统计 自然 语言 处 理 的 出 现 和 发 展 ， 人 们 已 经 越 来 越 愿意 使 用 统计 方法 来 
找 出 短语 。 与 建立 一 个 短语 与 惯用 语 的 固定 列表 不 同 ， 统 计 性 的 搭配 提取 方法 可 以 根据 不 
断 发 展 变 化 的 数据 来 找 出 当前 的 流行 用 语 。 


1. 基于 频率 的 方法 

一 种 简单 方法 是 查看 那些 出 现 频 率 最 高 的 元 词 。 这 种 方法 的 问题 是 最 常 出 现 的 词 不 一 定 
是 最 有 用 的 。 表 3-2 中 列 出 了 Yelp 点 评 数据 集中 最 常见 的 二 元 词 。 如 你 所 见 ， 通 过 文档 计 
数 得 出 的 最 常见 的 10 个 二 元 词 都 是 平淡 无 奇 的 词语 ， 没 有 多 少 意义 。 
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表 3-2: Yelp 点 评 数据 集中 出 现 频率 最 高 的 二 元 词 





二 元 词 文档 计数 
of the 450 849 
and the 426 346 
in the 397 821 
it was 396 713 
this place 344 800 
its3 41 090 
andi 332 415 
on the 325 044 
i was 285 012 
for the 276 946 


2. 用 于 搭配 提取 的 假设 检验 

简单 计数 是 一 种 太 简陋 的 测量 方式 ， 我 们 必须 找到 更 加 聪明 的 统计 手段 ， 以 便 轻松 地 提取 
出 有 意义 的 短语 。 其 中 的 关键 是 要 回答 一 个 问题 : 对 于 两 个 经 常 同 时 出 现 的 词 ， 它 们 同时 
出 现 的 频率 是 否 远 高 于 由 于 偶然 才 同 时 出 现 的 频率 。 能 回答 这 个 问题 的 统计 学 手段 就 是 假 
设 检验 。 


假设 检验 是 一 种 将 带 噪声 的 数据 归结 为 “是 ”或 “ 否 ” 两 种 答案 的 方法 。 它 可 以 对 从 随机 
分 布 中 抽取 出 的 样本 数据 进行 建 模 。 随 机 性 意味 着 我 们 从 来 不 会 百分之百 地 确定 答案 ， 总 
有 出 现 异常 值 的 可 能 。 所 以 ， 答 案 中 要 附带 一 个 概率 。 


例如 ,假设 检验 的 结果 可 以 是 “这 两 个 数据 集 有 95% 的 概率 来 自 于 同一 分 布 "。 关 于 假设 
检验 的 详细 介绍 ， 可 以 看 一 下 可 汗 学 院 关 于 假设 检验 和 pp 值 的 教程 。 


在 搭配 提取 方面 ， 近 年 来 提出 了 很 多 相关 的 假设 检验 方法 ， 其 中 最 成 功 的 方法 之 一 是 基于 
似 然 比 的 检验 (Dunning, 1993)。 对 于 一 对 给 定 的 单词 ， 该 方法 在 观测 数据 集 上 检验 两 个 
假设 。 第 一 个 假设 ( 原 假设 ) 认为 单词 1 的 出 现 与 单词 2 无 关 ， 换 种 说 法 就 是 看 到 单词 1 
对 于 能 否 看 到 单词 2 没有 影响 。 第 二 个 假设 ( 备 择 假设 ) 则 认为 看 到 单词 1 会 改变 看 到 单 
词 2 的 可 能 。 如 果 我 们 接受 了 备 择 假设 ， 就 意味 着 这 两 个 单词 可 以 组 成 一 个 常见 短语 。 因 
此 ， 用 于 短语 检测 ( 即 搭配 提取 ) 的 似 然 比 检验 会 提出 以 下 问题 : 在 一 个 特定 的 文本 语 料 
库 中 ， 我 们 可 以 建立 两 个 模型 ， 其 中 一 个 模型 中 的 单词 出 现 频率 是 彼此 不 相关 的 ， 另 一 个 
模型 中 的 单词 出 现 频率 则 彼此 相关 ， 那 么 在 语料库 中 实际 观测 到 的 单词 出 现 频率 更 可 能 是 
哪个 模型 中 生成 的 频率 呢 ? 


昕 起 来 很 抛 口 ， 我 们 用 数学 公式 把 它 表述 得 更 清晰 一 些 。( 数 学 是 一 种 非常 好 的 表达 方式 ， 
可 以 将 事物 表达 得 精确 而 又 简洁 ， 但 它 需 要 一 种 与 自然 语言 完全 不 同 的 解析 方法 。) 
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我 们 可 以 将 原 假设 Hau (不 相关 ) 表述 为 P(w, | wi) = P(w;| not w1)， 将 备 择 假设 Hass, (FH 
A) 表述 为 Pow | wi) A (w, | not wj). 
最 终 统计 量 为 以 下 两 个 国 数 的 比值 的 对 数 : 


L(Data; FH) 


log A = lo 
E 5 L(Data; H, 





Iternate ) 


似 然 函数 L(Data; H) 表示 在 使 用 相关 模型 或 不 相关 模型 时 ， 得 到 一 对 单词 在 数据 集中 出 现 
频率 的 概率 。 为 了 计算 出 这 个 概率 ， 还 必须 做 出 另外 一 个 假设 ， 即 数据 是 如 何 生成 的 。 最 
简单 的 数据 生成 模型 是 二 项 式 模型 ， 对 于 数据 集中 的 每 个 单词 ， 我 们 都 掷 一 次 硬币 ， 如 果 
硬币 正面 向 上 ， 我 们 就 插入 一 个 特定 单词 ， 否 则 就 插入 某 个 其 他 单词 。 在 这 种 策略 下 ， 这 
个 特定 单词 的 出 现 次 数 就 服从 二 项 式 分 布 。 二 项 式 分 布 完全 由 单词 的 总 数 、 感 兴趣 单词 的 
出 现 次 数 和 硬币 正面 向 上 的 概率 来 决定 。 






































通过 似 然 比 检验 这 种 分 析 方法 来 检测 常见 短语 的 算法 如 下 。 


(1) 计算 出 所 有 单词 的 出 现 概率 : P(w)。 

(2) 对 所 有 的 唯一 二 元 词 ， 计 算出 成 对 单词 出 现 的 条 件 概率 : Pow | w)。 
(3) 对 所 有 的 唯一 二 元 词 ， 计 算出 似 然 比 log 4。 

(4) 按照 似 然 比 为 二 元 词 排 序 。 

(5) 将 似 然 比 最 小 的 二 元 词 作 为 特征 。 








理解 似 然 比 检验 

似 然 比 检验 的 关键 在 于 ， 它 比较 的 不 是 概率 参数 本 身 ， 而 是 在 这 些 参数 (以 
及 预 设 的 数据 生成 模型 ) 之 下 得 到 实际 观测 数据 的 概率 。 似 然 是 统计 学 习 中 
的 一 个 核心 概念 ， 刚 学 习 时 会 觉得 它 难以 理解 ， 但 是 一 旦 理解 了 其 中 的 逻 
辑 ， 就 会 觉得 它 很 直观 易 懂 。 























还 有 一 种 基于 点 间 互 信息 的 统计 方法 ， 但 它 对 罕见 词 极为 敏感 ， 而 现实 世界 的 文本 语料库 
总 是 免不了 罕见 词 的 。 因 此 ， 这 种 方法 并 不 常用 ， 这 里 也 就 不 介绍 了 。 





请 注意 ， 所 有 用 于 搭配 提取 的 统计 方法 都 要 对 一 个 候选 短语 列表 进行 过 滤 ， 不 管 它 使 用 的 
方法 是 简单 词 频 统计 、 假 设 检验 ， 还 是 点 间 互 信息 。 生 成 这 种 列表 的 最 简单 实惠 的 方法 是 
对 了 元 词 进行 计数 。 可 以 生成 不 连贯 的 序列 ， 但 计算 成 本 比较 高 。 在 实际 分 析 中 ， 即 使 是 
对 于 连贯 的 n 元 词 ， 人 们 也 很 少 使 用 二 元 词 和 三 元 词 之 外 的 n 元 词 ， 因 为 即使 在 过 滤 之 
后 ， 它 们 的 数量 仍然 太 多 。 要 生成 更 长 的 短语 ， 需 要 另外 的 方法 ， 比 如 文本 分 块 ， 或 结合 
词性 标注 来 使 用 。 











3. 文本 分 块 和 词性 标注 
文本 分 块 要 比 找 出 却 元 词 复杂 一 些 ， 复 杂 之 处 在 于 ， 
生成 标记 序列 。 


举例 来 说 ， 或 许 我 们 最 感 兴趣 的 是 找 出 一 个 问题 中 的 所 有 名 词 短语 ， Pee 
(在 下 面 的 例子 中 是 文本 标题 )。 为 了 找 出 这 些 短语 ， 我 们 先 切 分 出 所 有 带 词性 的 单词 ， 然 


后 检查 这 些 标记 的 邻近 词 ， 找 出 按 词 性 组 合 的 词组 ， 这 


到 词 





TextBlob) 中 带 有 适用 于 多 种 语言 的 模型 。 
为 了 尽量 直观 地 演示 一 下 Python 中 的 几 个 程序 库 是 如 何 使 用 词性 标注 来 进行 文本 分 块 的 ， 


RMF 























找 出 名 词 短语 。 
例 3-2 词性 标注 和 文本 分 块 


>>> import pandas as pd 
>>> import json 


# 加 载 前 10 条 点 评 








它 要 使 用 基于 规则 的 模型 并 基于 词性 











些 词组 又 称 为 “ 块 "。 将 单词 映射 


性 的 模型 通常 与 特定 的 语言 有 关 。 一 些 开 源 的 Python 程序 库 (比如 NLTK、spaCy 和 








引用 一 次 Yelp 点 评 数据 集 。 在 例 3-2 中 ， 我 们 使 用 spaCy 和 TextBlob UR 竹 来 


>>> f = open('data/yelp/v6/yelp, academic dataset review.json') 


>>> js = [] 

>>> for i in range(10): 

$3 js.append(json.loads(f.readline())) 
>>> f.close() 

>>> review df = pd.DataFrame(js) 


# 首先 使 用 spaCy 中 的 函数 
>>> import spacy 

# 预先 加 载 语言 模型 

>>> nlp = spacy.load('en') 

















# 我 们 可 以 创建 一 个 spaCy nlp 变量 的 Pandas 序 列 
>>> doc df = review df['text'].apply(nlp) 











# spaCy 可 以 使 用 (.pos_) 提 供 细 粒度 的 词性 ， 

# 使 用 (.tag_) 提 供 粗 粒度 的 词性 

>>> for doc in doc df[4]: 
print([doc.text, doc.pos , doc.tag ]) 











Got VERB VBP 

a DET DT 
letter NOUN NN 
in ADP IN 

the DET DT 
mail NOUN NN 
last ADJ JJ 
week NOUN NN 
that ADJ WDT 
said VERB VBD 
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Dr. PROPN NNP 
Goldberg PROPN NNP 
is VERB VBZ 
moving VERB VBG 
to ADP IN 
Arizona PROPN NNP 
to PART TO 
take VERB VB 
a DET DT 
new ADJ JJ 
position NOUN NN 
there ADV RB 
in ADP IN 
June PROPN NNP 
. PUNCT . 

SPACE SP 
He PRON PRP 
will VERB MD 
be VERB VB 
missed VERB VBN 
very ADV RB 
much ADV RB 
. PUNCT . 


SPACE SP 

I PRON PRP 
think VERB VBP 
finding VERB VBG 
a DET DT 

new ADJ JJ 
doctor NOUN NN 
in ADP IN 

NYC PROPN NNP 
that ADP IN 
you PRON PRP 
actually ADV RB 
like INTJ UH 
might VERB MD 
almost ADV RB 
be VERB VB 

as ADV RB 

awful ADJ JJ 

as ADP IN 
trying VERB VBG 
to PART TO 

find VERB VB 

a DET DT 

date NOUN NN 

! PUNCT . 

















# SpaCy 还 可 以 进行 基本 的 名 词 分 块 

>>> print([chunk for chunk in doc df[4].noun chunks]) 

[a letter, the mail, Dr. Goldberg, Arizona, a new position, June, He, I, 
a new doctor, NYC, you, a date] 





THHHE 


# 我 们 还 可 以 使 用 TextBLob 实 现 同样 的 特征 转换 
from textblob import TextBlob 





# TextBLob 中 的 默认 标记 器 使 用 PatternTagger fi 








E 这 个 例子 中 是 没有 问题 的 。 








# 你 还 可 以 指定 使 用 NLTK 标 记 器 ， 它 对 于 不 完整 的 句子 效果 更 好 。 
>>> blob df = review df['text'].apply(TextBlob) 


>>> blob df[4].tags 
[('Got', 'NNP'), 
('a', 'DT'), 
('letter', 'NN'), 
('in', 'IN'), 
('the', 'DT'), 
('mail', 'NN'), 
('last', 'JJ'), 
('week', 'NN'), 
("that', 'WDT'), 
('said', 'VBD'), 
(Dr.', 'NNP'), 
('Goldberg', 'NNP'), 
(‘is', 'VBZ'), 
('moving', 'VBG'), 
('to', 'TO'), 
('Arizona', 'NNP'), 
('to', 'TO'), 
('take', 'VB'), 
('a', 'DT'), 
('new', 'JJ'), 
('position', 'NN'), 
('there', 'RB'), 
('in', 'IN'), 
('June', 'NNP'), 
("He', 'PRP'), 
('will', 'MD'), 
('be', 'VB'), 
('missed', 'VBN'), 
('very', 'RB'), 
('much', 'JJ'), 
('I', 'PRP'), 
('think', 'VBP'), 
('finding', 'VBG'), 
('a', 'DT'), 
('new', 'JJ'), 
('doctor', 'NN'), 
('in', 'IN'), 
('NYC', 'NNP'), 
('that', 'IN'), 
('you', 'PRP'), 
('actually', 'RB'), 
('like', 'IN'), 
('might', 'MD'), 
('almost', 'RB'), 
('be', 'VB'), 
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'as', 'RB'), 
'awful', 'JJ'), 
tas; "IN*); 
'trying', 'VBG'), 
'to', 'TO'), 
'find', 'VB'), 
‘a's DTJ; 
"date', 'NN')] 


一 一 一 一 一 一 一 一 


>>> print([np for np in blob df[4].noun phrases]) 
['got', 'goldberg', 'arizona', 'new position', 'june', 'new doctor', 'nyc'] 








可 见 ， 通 过 不 同 程序 库 找 出 的 名 词 短 语 并 不 完全 一 样 。spaCy 找 出 的 短语 中 包括 英文 中 的 
一 些 普通 词 ， 如 “a” 和 “the”， 而 TextBlob 则 去 掉 了 这 些 词 。 由 此 可 知 ， 不 同 程序 库 中 
认定 名 词 短语 的 规则 引 敬 是 有 区 别 的 。 你 还 可 以 编写 自己 的 词性 关系 来 定义 要 搜寻 的 文本 
块 。 你 可 以 参考 (Bird 等 ，2009) 来 从 头 开始 研究 使 用 Python 进行 文本 分 块 的 方法 。 




















3.4 ”小结 


词 袋 表示 法 简单 易 懂 ， 容 易 计 算 ， 并 对 分 类 和 搜索 任务 非常 有 效 。 但 有 时 单个 单词 还 是 太 
简单 了 ， 无 法 表述 出 文本 中 的 某 些 信息 。 为 了 解决 这 个 问题 ， 我 们 要 求助 于 更 长 的 序列 。 
n 元 词 袋 是 词 袋 的 一 种 自然 推广 ， 它 的 概念 非常 好 理解 ， 计 算 起 来 也 和 词 袋 一 样 容易 。 






































n 元 词 袋 可 以 生成 大 量 互 不 相同 的 元 词 ， 它 增加 了 特征 存储 成 本 ， 在 模型 训练 和 预测 阶 
段 也 需要 更 多 计算 能 力 。 对 于 同样 数量 的 数据 点 ，n 元 词 袋 使 得 特征 空间 的 维度 大 大 增加 。 
因此 ， 数 据 变 得 特别 稀 朴 。7 越 大 ， 存 储 和 计算 的 成 本 就 越 高 ， 数 据 也 越 稀 玻 。 基 于 这 些 
原因 ， 更 长 的 n 元 词 并 不 是 总 能 提高 模型 的 准确 率 或 带 来 其 他 方面 的 性 能 改善 。 通 常 只 使 
用 二 元 词 和 三 元 词 ， 很 少 使 用 更 长 的 元 词 。 











n 








SERRA BE PEAT SAS TERR [A], AT ARTES n 元 词 进行 过 滤 ， 只 保留 那些 最 有 意义 的 
短语 。 这 就 是 搭配 提取 的 目标 。 理 论 上 ， 搭 配 (或 短语 ) 可 以 形成 文本 中 不 连贯 的 标记 序 
列 ， 但 实际 上 ， 找 出 不 连贯 的 短语 需要 非常 高 的 计算 成 本 ,而且 收效 其 微 。 所 以 ， 搭 配 提 
取 通 常 从 一 个 备 选 二 元 词 列表 开始 ， 然 后 使 用 统计 方法 对 其 进行 过 着。 


所 有 这 些 方法 都 是 将 一 个 文本 标记 序列 转换 为 一 个 与 之 无 关 的 计数 集合 。 相 对 于 单词 序 
列 ， 集 合 中 的 结构 很 少 ， 它 们 可 以 生成 扁平 的 特征 向 量 。 


本 章 晴 晓 点 水 式 地 介绍 了 一 下 简单 的 文本 特征 化 技术 。 这 些 技术 将 一 段 带 有 丰富 语义 结构 
的 自然 语言 文本 转换 为 简单 的 扁平 向 量 。 我 们 讨论 了 一 些 常用 的 能 使 向 量变 得 更 加 整洁 的 
过 滤 技 术 ， 还 介绍 了 n 元 词 和 搭配 提取 ， 将 它们 作为 一 种 向 扁平 向 量 中 添加 一 点 结构 的 方 
法 。 下 一 章 将 更 加 详细 地 介绍 另 一 种 常用 的 文本 特征 化 方法 ， 称 为 从 idf。 随 后 的 章 布 中 
会 讨论 更 多 向 扁平 向 量 中 添加 结构 的 方法 。 
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第 4 章 


特征 缩放 的 效果 从 词 袋 到 tf-idf 




















词 袋 表示 法 简单 易 行 ， 但 远 非 完美 。 如 果 我 们 无 差别 地 对 所 有 单词 计数 ， 那 么 有 些 单 词 会 
被 过 分 强调 ， 这 是 根本 不 必要 的 。 回 想 一 下 第 3 章 中 Emma 和 乌鸦 的 例子 ， 我 们 希望 有 一 
种 能 够 强调 两 个 主要 角色 的 文档 表示 方法 。 单 词 “Emma” 和 “raven” 都 出 现 了 3 次 ， 但 
“the” 居 然 出 现 了 8 次,“and” 也 出 现 了 5 次 ,，“it” 和 “was” 都 出 现 了 4 次。 仅 通过 简单 
的 词 频 计 数 ， 无 法 突显 出 主要 角色 ， 这 是 这 种 方法 的 问题 所 在 。 

















能 挑选 出 像 “masgnificentlty”“gleamed” “intimidated”“tentatively” 和 “reigned” 这 样 的 单 
词 也 是 很 好 的 ， 因 为 它们 有 助 于 确定 该 段 文字 的 整体 基调 。 它 们 能 体现 出 情感 ， 这 对 数据 
科学 家 来 说 是 非常 宝贵 的 信息 。 所 以 ， 理 想 情况 下 ， 我 们 需要 那 种 能 强调 出 有 意义 的 单词 
的 表示 方法 。 


4.1 tf-idf: 词 袋 的 一 种 简单 扩展 
tf-idf 是 在 词 袋 方法 基础 上 的 一 种 简单 扩展 ， 它 表示 词 频 - 逆 文 档 频 率 。tf-idf 计算 的 不 是 


数据 集中 每 个 单词 在 每 个 文档 中 的 原本 计数 ， 而 是 一 个 归 一 化 的 计数 ， 其 中 每 个 单词 的 计 
数 要 除 以 这 个 单词 出 现在 其 中 的 文档 数量 。 即 : 
































bow(w, d) = 单词 w 在 文档 d 中 出 现 的 次 数 
tf-idf(w, d) = bow(w, d) * N / (单词 w 出 现在 其 中 的 文档 数量 ) 


NN 是 数据 集中 的 文档 总 数 。 分 数 N / (单词 w 出 现在 其 中 的 文档 的 数量 ) 就 是 所 谓 的 逆 文 档 
频率 。 如 有 果 一 个 单词 出 现在 很 多 文档 中 ， 那 么 它 的 逆 文 档 频 率 就 接近 于 1。 如 果 一 个 单词 
只 出 现在 少数 儿 个 文档 中 ， 那 么 它 的 逆 文 档 频 率 就 会 高 得 多 。 
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我 们 也 可 以 使 用 逆 文 档 频率 的 对 数 变换 ， 而 不 是 它 的 原始 形式 。 对 数 变换 可 以 将 1 转换 为 
0， 并 使 大 的 数值 (那些 远 远 大 于 1 的 值 ) 变 小 。( 随 后 会 有 更 多 介绍 。) 


如 果 将 tf-idf 定义 为 : 
tf-idf(w, d) = bow(w, d) * log(N/ 单词 w 出 现在 其 中 的 文档 数量 ) 


那么 就 可 以 有 效 地 将 一 个 几乎 出 现在 所 有 单个 文档 中 的 单词 的 计数 归 零 ， 而 一 个 只 出 现在 
少数 几 个 文档 中 的 单词 的 计数 将 会 被 放大 。 

我 们 通过 几 张 图 片 来 加 次 一 下 理解 。 图 4-1 是 个 非常 简单 的 例子 ， 其 中 有 4 个 句子 : 
"itis a puppy” “it is a cat” “it is a kitten" FH “that is a dog and this is a pen”。 我 们 在 由 
"puppy" “cat” 4H “is” 3X 3 个 单词 构成 的 特征 空间 中 绘制 出 这 些 句 子 。 




















puppy 


^ 


itisa wo) 














4-1; 关于 狗 和 猫 的 4 个 句子 


下 面 看 一 下 tf-idf 表示 法 中 同样 的 4 个 句子 ， 我 们 对 逆 文 档 频率 使 用 了 对 数 变换 。 图 4-2 展 
示 了 特征 空间 中 的 文档 ， 可 以 看 到 ， 单 词 “is” 作 为 一 个 特征 被 有 效 地 消除 了 ， 因 为 它 在 
这 个 数据 集 的 所 有 句子 中 都 出 现 了 。 另 外 ， 单 词 “puppy” 和 “cat” 因 为 在 4 个 句子 中 都 
只 出 现 了 1 次 ， 所 以 它们 的 计数 被 放大 了 (log(4) = 1.38... > 1)。 因 此 ，tf-idf 使 得 罕见 词 更 
突出 ， 并 有 效 地 忽略 了 常见 词 。tf-idf 与 第 3 章 中 基于 频率 的 过 滤 方 法 密切 相关 ， 但 相对 于 
设置 固定 边界 国 值 的 做 法 ， 它 在 数学 上 显得 更 加 优雅 。 








tf-idf 的 直观 理解 
tf-idf 突出 了 罕见 词 ， 并 有 效 地 忽略 了 常见 词 。 
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puppy 








log 4 itis a puppy 


that is a dog and 
this is a pen, 
itis a kitten 


log 4 


itis a cat 





tfidf(puppy)=1*log4 
tfidf(cat)=1*log4 
tfidf(is)=1*0 








4-2: 图 4-1 中 句子 的 计 idf 表示 


4.2 tf-idf 方 法 测试 





tf-idf 通过 乘 以 一 个 和 常数， 对 单词 计数 特征 进行 了 转换 。 








因此 ， 它 是 一 种 特征 缩放 方法 ， 我 














们 在 第 2 章 中 介绍 过 这 个 概念 。 特 征 缩放 的 实际 效果 如 
类 任务 中 比较 一 下 缩放 特征 和 未 缩放 特征 的 效果 。 是 时 


何 呢 ? 让 我 们 在 一 个 简单 的 文本 分 
医 做 一 些 编码 了 ! 





在 例 4-1 中 ， 我 们 再 次 使 用 了 Yelp 点 评 数据 集 。Yelp 数据 竞赛 第 6 轮 的 数据 集中 有 差不多 








160 万 条 商家 点 评 数据 ， 这 些 商 家 分 布 在 美国 的 6 个 城 站 
例 4-1 使 用 Python 加载 并 清理 Yelp 点 评 数据 集 


>>> import json 
>>> import pandas as pd 





# 加 载 YeLp 商 家 数据 


HAR. 


>>> biz f = open('yelp academic dataset business.json') 


>>> biz df = pd.DataFrame([json.loads(x) for x in 
>>> biz f.close() 


# 加 载 Yelp 点 评 数据 


biz f.readlines()]) 


>>> review file = open('yelp academic dataset review.json') 


>>> review df = pd.DataFrame([json.loads(x) for x 
>>> review file.close() 





# 选取 出 夜店 和 餐馆 


in review file.readlines()]) 


>>> two biz = biz df[biz df.apply(lambda x: 'Nightlife' in x['categories'] or 
es 'Restaurants' in x['categories'], 


axis-1)] 


# 与 点 评 数据 连接 ， 得 到 两 种 类 型 商家 的 所 有 点 评 


>>> twobiz reviews = two biz.merge(review df, on- 


# 去 除 我 们 不 需要 的 特征 





'business id', how='inner') 





AR) Se 


| #42 
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邮 


>>> twobiz reviews = twobiz reviews[['business id', 





'name', 

'stars y', 
'text', 
'categories']] 


# 创建 目标 列 一 一 夜店 类 型 的 商家 为 True， 否 则 为 FaLse 





>>> two biz reviews['target'] = V 


twobiz reviews.apply(lambda x: 'Nightlife' in x['categories'], 
axis-1) 


4.2.1 创建 分 类 数据 集 








7 











下 面 看 看 能 否 通过 点 评 数据 区 分 出 一 个 商 


家 是 餐馆 还 是 夜店 。 为 了 市 省 训练 时 间 ， 我 们 可 以 


取 点 评 数据 的 一 个 子 集 。 在 这 个 例子 中 ， 两 类 商家 的 点 评 数量 相差 很 大 ， 这 称 为 类 别 不 平衡 





数据 集 。 不 平衡 数据 集 的 建 模 有 些 问 题 ， 











因为 模型 会 将 大 部 分 努力 用 于 拟 合 优势 类 别 。 因 为 


在 两 个 类 别 中 我 们 都 有 很 多 数据 ， 所 以 解决 这 个 问题 的 一 种 好 的 做 法 是 对 优势 类 别 (餐馆 ) 





进行 下 采样 ， 使 它 的 数量 与 劣势 类 别 (夜店 ) 基本 相当 。 下 面 是 一 个 示例 流程 。 


(1) 对 夜店 点 评 数据 进行 10% 的 随机 抽样 ， 对 餐馆 点 评 数 据 进行 2.1% 的 随机 抽样 (选择 这 
样 的 比例 可 以 使 两 个 类 别 的 抽样 数据 基本 相当 ) 。 

(2) 按照 70/30 的 比例 将 这 个 数据 集 划 分 为 训练 集 和 测试 集 。 在 这 个 例子 中 ， 训 练 集 有 29 
264 条 点 评 数据 ， 测 试 集 有 12 542 条 点 评 数据 。 

G) 训练 数据 包含 46 924 个 唯一 单词 ， 这 就 是 词 袋 表示 法 的 特征 数量 。 











例 4-2 给 出 了 有 具体 做 法 。 
例 4-2 创建 平衡 的 分 类 数据 集 
































# 创建 一 个 类 别 平衡 的 子 样本 ， 供 练习 使 用 











>>> nightlife = | 


twobiz reviews[twobiz reviews.apply(lambda x: 'Nightlife' in x['categories'], 


>>> restaurants = \ 


axis=1)] 


twobiz reviews[twobiz reviews.apply(lambda x: 'Restaurants' in x['categories'], 


axis-1)] 


>>> nightlife subset = nightlife.sample(frac-0.1, random state-123) 
>>> restaurant subset = restaurants.sample(frac=0.021, random state-123) 
>>> combined = pd.concat([nightlife subset, restaurant subset]) 


# 划分 训练 集 和 测试 集 


>>> training data, test data = modsel.train test split(combined, 


>>> training data.shape 
(29264, 5) 

>>> test data.shape 
(12542, 5) 


train size-0.7, 
random state-123) 
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4.2.2 ”使 用 tf-idf 变 换 来 缩放 词 袋 


这 个 练习 的 目的 是 比较 一 下 词 袋 、tf-idf 和 归 一 化 在 线性 分 类 问题 中 的 效果 。 请 注意 ， 
做 完 tf-idf 后 再 进行 f 归 一 化 等 同 于 只 做 归 一 化 。 所 以 ， 我 们 只 需要 测试 三 组 特征 : 词 























袋 、tf-idf， 以 及 词 袋 基础 上 的 归 一 化 。 





在 例 4-3 中 ， 我 们 使 用 scikit-learn 中 的 CountVectorizer 将 点 评 文本 转换 为 词 袋 。 所 有 文 
本 特征 化 方法 都 依赖 于 一 个 分 词 器 ， 它 是 一 个 能 将 文本 字符 串 转换 为 标记 (单词 ) 列表 的 
程序 模块 。 在 这 个 例子 中 ，scikit-learn 使 用 默认 的 分 词 模 式 ， 搜 索 由 2 个 或 2 个 以 上 的 字 





母 和 数字 组 成 的 序列 ， 标 点 符号 被 当 作 标 记分 隔 符 。 


例 4-3 转换 特征 
# 用 词 袋 表示 点 评 文本 
>>> bow transform = text.CountVectorizer() 
>>> X tr bow = bow transform.fit transform(training data[ 
>>> X te bow = bow transform.transform(test data['text']) 
>>> len(bow transform.vocabulary ) 


46924 
>>> y tr = training data['target'] 
>>> y te = test data['target'] 


# 使 用 词 袋 矩阵 创建 tf-idf 表 示 

>>> tfidf trfm = text.TfidfTransformer(norm=None) 
>>> X tr tfidf = tfidf trfm.fit transform(X tr bow) 
>>> X te tfidf = tfidf trfm.transform(X te bow) 








# 仅 出 于 练习 的 目的 ， 对 词 袋 表 示 进 行 12 归 一 化 
>>> X tr l2 = preproc.normalize(X tr bow, axis-0) 
>>> X te l2 = preproc.normalize(X te bow, axis=0) 








测试 集 上 的 特征 缩放 


'text']) 


特征 缩放 的 微妙 之 处 在 于 ， 它 要 求 我 们 知道 一 些 实际 中 我 们 很 可 能 不 知道 的 








特征 统计 量 ， 比 如 均值 、 方 差 、 文 档 频率 、C 范 数 ， 




















等 等 。 为 了 计算 H 


H tf-idf 


表示 ， 我 们 必须 基于 训练 数据 计算 出 逆 文 档 频率 ， 并 用 这 些 统计 量 既 缩放 训 


练 数据 也 缩放 测试 数据 。 在 scikit-learn 中 ， 在 训练 数据 上 拟 合 特征 转换 器 相 
当 于 收集 相关 统计 量 。 然 后 可 以 将 拟 合 好 的 特征 转换 器 应 用 到 测试 数据 上 。 


当 使 用 训练 数据 统计 量 来 缩放 测试 数据 时 ， 结 果 看 上 去 会 有 点 奇怪 。 测 试 集 上 的 min-max 
缩放 不 会 严格 地 映射 到 0 和 1 之 间 。7Y 范 数 、 均 值 和 方差 统计 量 看 上 去 也 有 点 不 对 劲 。 这 
是 仅 次 于 缺失 数据 的 一 个 问题 。 举 例 来 说 ， 如 有 果 测 试 集中 含有 设 出 现在 训练 集中 的 单词 ， 





























那么 这 些 新 单词 就 没有 可 用 的 文档 频率 。 通 常 的 解决 方法 是 直接 将 测试 集中 的 新 单词 删 
除 。 这 看 上 去 有 点 不 负责 任 ， 但 模型 一 一 通过 训练 集 得 出 的 模型 一 一 真 的 不 知道 如 何 处 到 
这 些 单词 。 另 外 一 种 稍微 温柔 一 点 的 做 法 是 ， 显 式 地 设置 一 个 “垃圾 词 ”特征 ， 将 所 有 1 
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频 词 都 映射 到 这 个 特征 ， 包 括 训练 集中 的 低频 词 。 这 种 方法 在 3.2.2 节 的 “罕见 词 ”部 分 
讨论 过 。 


4.2.3 ”使 用 逻辑 回归 进行 分 类 


实数 




















回归 是 一 种 简单 的 线性 分 类 器 。 正 因为 其 简单 ， 所 以 非常 适合 充当 首次 试验 的 分 类 
它 对 输入 特征 进行 加 权 组 合 ， 然 后 传递 给 一 个 $ 形 函 数 ， 这 个 函数 可 以 平滑 地 将 任何 
决 射 为 0 和 1 之 间 的 一 个 值 ， 即 将 实数 输入 x 转换 为 0 和 1 之 间 的 一 个 值 。 它 有 一 引 




















参数 w， 表 示 中 点 (0.5) 附近 的 增长 斜率 。 截 距 项 5b 表示 函数 输出 跨 过 中 点 时 的 输入 值 。 
如 果 S 形 函 数 的 输出 大 于 0.5， 逻 辑 回 归 分 类 器 就 预测 一 个 正 分 类 ， 否 则 就 预测 一 个 负 分 


类 。 


通过 改变 w 和 4b， 我 们 可 以 控制 在 哪里 发 生 决 策 变 化 ， 以 及 决策 对 在 该 点 附近 发 生 的 





输入 变化 做 出 反应 的 速度 。 





EE 











4-3 演示 了 S 形 函 数 。 
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看 我 们 在 不 同 的 特征 集合 上 建立 几 个 简单 逻辑 回归 分 类 器 ， 并 看 看 效果 ( 见 例 4-4). 











例 4-4 使 用 默认 参数 训练 逻辑 回归 分 类 器 


>>> def simple logistic classify(X tr, y tr, X test, y test, description): 


>>> mi 
>>> m2 
>>> m3 

















HE 辅助 函数 ， 用 来 训练 逻辑 回归 分 类 器 ， 并 在 测试 数据 上 进行 评分 。 
m = LogisticRegression().fit(X tr, y tr) 

S - m.score(X test, y test) 

print ('Test score with', description, 'features:', s) 

return m 

















simple logistic classify(X tr bow, y tr, X te bow, y te, 'bow') 
simple logistic classify(X tr l2, y tr, X te l2, y te, 'l2-normalized') 
simple logistic classify(X tr tfidf, y tr, X te tfidf, y te, 'tf-idf') 
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Test score with bow features: 0.775873066497 
Test score with l2-normalized features: 0.763514590974 
Test score with tf-idf features: 0.743182905438 


事与愿违 ， 结 果 显示 准确 率 最 高 的 分 类 器 使 用 的 是 词 袋 特征 ， 这 真是 出 平 意料 。 实 际 上 ， 
出 现 这 种 情况 的 原因 在 于 分 类 器 没有 很 好 地 “ 调 优 ” ， 这 是 在 比较 分 类 器 时 经 常 犯 的 错误 。 























4.2.4 使 用 正则 化 对 逻辑 回归 进行 调 优 

逻辑 回归 有 些 不 切实 际 的 功能 。 当 特征 数量 大 于 数据 点 数量 时 ， 找 出 最 佳 模型 这 个 问题 就 
变 得 不 确定 了 。 解 决 这 个 问题 的 一 种 方法 是 在 训练 过 程 中 加 入 额外 的 限制 条 件 ， 这 就 是 正 
则 化 ， 本 节 将 讨论 它 的 技术 细节 。 








逻辑 回归 的 大 多 数 具体 实现 都 允许 正则 化 。 要 使 用 正则 化 ， 必 须 确定 一 个 正则 化 参数 。 正 
则 化 参数 是 一 种 超 参 数 ， 不 能 在 模型 训练 过 程 中 自动 学 习 。 相 反 ， 它 们 必须 根据 具体 的 问 
题 进行 调 优 ， 并 提供 给 训练 算法 ， 这 个 过 程 就 是 超 参数 调 优 。( 如 果 想 详细 了 解 如 何 评价 
机 器 学 习 模 型 ， 参见 Zheng Q015).) 一 种 基本 的 超 参 数 调 优 方法 称 为 网 格 搜 索 ， 先 确定 一 
个 超 参数 网 格 ， 然 后 使 用 调 优 程序 自动 搜索 ， 找 到 网 格 中 的 最 优 超 参数 设置 。 找 到 最 优 超 
参数 设置 之 后 ， 你 可 以 使 用 该 设置 在 整个 训练 集 上 训练 一 个 模型 ， 然 后 使 用 它 在 测试 集 上 
的 表现 作为 这 类 模型 的 最 终 评价 。 











重要 : 比较 模型 时 要 对 超 参 数 进行 调 优 

当 比 较 模 型 或 特征 时 ， 必 须 对 超 参 数 进 行 调 优 。 软 件 包 的 默认 设置 总 是 能 返 
回 一 个 模型 ， 但 除非 软件 包 能 在 后 台 自 动 调 优 ， 否 则 它 很 可 能 基于 非 最 优 的 

超 参数 设置 返回 一 个 非 最 优 模型 。 分 类 器 性 能 对 超 参 数 设 置 的 敏感 度 依赖 于 

具体 的 模型 和 训练 数据 的 分 布 。 相 对 来 说 ， 逻 辑 回归 对 于 超 参 数 设置 是 不 太 
敏感 的 ， 但 即便 这 样 ， 找 到 并 使 用 正确 的 超 参数 范围 还 是 必要 的 。 否 则 ， 如 
果 仅 因 为 超 参 数 调 优 的 原因 ， 一 个 模型 才 比 另 一 个 模型 有 优势 ， 就 反映 不 出 
模型 或 特征 的 实际 行为 了 。 

即使 是 最 好 的 能 自动 调 优 的 软件 包 ， 也 需要 确定 搜索 的 上 界 和 下 界 ， 而 确定 

这 些 界限 也 需要 手动 尝试 若干 次 。 






































在 下 面 的 例子 中 ， 我 们 手动 设置 逻辑 回归 正则 化 参数 的 搜索 网 格 为 {1e-5, 0.001, 0.1, 1, 10, 
100} ， 上 界 和 下 界 是 经 过 了 几 次 尝试 后 确定 的 。 每 个 特征 集合 的 最 优 超 参 数 设 置 见 表 4-1。 


表 4-1: 逻辑 回归 的 最 优 超 参 数 设 置 ， 使 用 Yelp 点 评 数据 的 夜店 和 餐馆 抽样 














如 正则 化 
词 袋 0.1 
f 归 一 化 10 
tf-idf 0.001 





我 们 还 想 测试 一 下 ， 人 idf 和 词 袋 之 间 的 准确 度 差 别 是 否 是 由 噪声 造成 的 。 为 此 ， 我 们 使 用 
大 折 交 叉 验 证 来 模拟 多 个 统计 独立 的 数据 集 ， 把 数据 集 分 成 上 E 折 。 交 又 验 证 过 程 会 在 这 些 
数据 子 集 踪 代 进 行 ， 使 用 除 一 折 数 据 之 外 的 所 有 数据 进行 训练 ， 而 用 保留 的 那 一 折 数 据 
来 验证 结果 。 





通过 重 采 样 估计 方差 
现代 统计 方法 假定 基本 数据 来 自 于 随机 分 布 。 对 于 从 这 种 数据 导出 的 模型 ， 它 的 性 能 测 
量 也 会 受到 随机 吕 声 的 影响 。 在 这 种 情况 下 ， 好 的 做 法 是 不 止 做 一 次 测量 ,而 是 基于 具 
有 大 致 相同 的 统计 量 的 数据 集 进行 多 次 测量 。 这 样 可 以 获得 一 个 测量 结果 的 置信 区 间 。 
把 折 交 又 验证 就 是 这 样 一 种 方法 。 重 采样 则 是 另 一 种 能 从 同一 份 基 础 数据 中 生成 多 个 
小 样本 的 技术 。 可 以 参考 Zheng (2015) 了 解 关 于 重 采 样 的 详细 介绍 。 

















scikit-learn 中 的 GridSearchcv 国 数 可 以 执行 带 交 叉 验 证 的 网 格 搜索 ( 见 例 4-5)。 图 4-4 展 
示 了 一 张 箱 线 图 ， 给 出 了 使 用 每 种 特征 集合 训练 出 的 模型 的 准确 度 测量 结果 的 分 布 。 方 
框 中 间 的 直线 表示 准确 度 的 中 位 数 ， 方 框 本 身 表 示 第 一 四 分 位 数 和 第 三 四 分 位 数 之 间 的 区 
域 ， 两 侧 伸展 出 去 的 直线 则 表示 分 布 的 其 余部 分 。 


例 4-5 使 用 网 格 搜索 对 逻辑 回归 进行 调 优 


>>> import sklearn.model selection as modsel 



































# 确定 一 个 搜索 网 格 ， 然 后 对 每 种 特征 集合 执行 5- 折 网 格 搜索 
>>> param grid = {'C': [1e-5, 1e-3, 1e-1, 1e0, 1e1, 1e2]} 

















# 为 词 袋 表示 法 进行 分 类 器 调 优 
>>> bow search = modsel.GridSearchCV(LogisticRegression(), cv=5, 
Des param grid-param grid ) 

>>> bow search.fit(X tr bow, y tr) 


# 为 L2- 归 一 化 词 向 量 进行 分 类 器 调 优 
>>> L2_search = modsel.GridSearchCV(LogisticRegression(), cv=5, 
xs param grid-param grid ) 

>>> l2 search.fit(X tr l2, y tr) 


# 为 tf-idf 进 行 分 类 器 调 优 
>>> tfidf search = modsel.GridSearchCV(LogisticRegression(), cv=5, 
PA. param grid-param grid ) 

>>> tfidf search.fit(X tr tfidf, y tr) 








# 检查 网 格 搜索 的 一 个 输出 ， 看 看 它 是 如 何 运 行 的 

>>> bow search.cv results 

('mean fit time': array([ 0©.43648252,  0.94630651, 
5.64090128, 15.31248307, 31.47010217, 42.44257565]), 

'mean score time': array([ 0.00080056, 0©.00392466, 20.00864897, © .00784755, 
0.01192751, 0.0072515 ]), 

'mean test score': array([ 0.57897075, 0©.7518111 , 0.78283898, 0.77381766, 
0.75515992, 0.73937261]), 
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'mean train score': array([ 0.5792185 , 0.76731652, 0.87697341, 0.94629064, 
0.98357195, 0.99441294]), 
'param C': masked array(data - [1e-05 0.001 0.1 1.0 10.0 100.0], 
mask = [False False False False False False], 
fill value - ?), 
'params': ({'C': 1e-05}, 


{'C': 0.001}, 
{'C': 0.1}, 
(C: 1.0}, 
{'C': 10.0), 


{'C': 100.0}), 

'rank test score': array([6, 4, 1, 2, 3, 5]), 

"splitO_test_score': array([ 0.58028698, 0.75025624, 0.7799795 , 0.7726341 , 
0.75247694, 0.74086095]), 

'splitO train score': array([ 0.57923964, 0©.76860316, 0©.87560871, 0.94434003, 
0.9819308 , 0.99470312]), 

'spliti test score': array([ 0.5786776 , 0©.74628396, 0.77669571, 0.76627371, 
0 .74867589, 0.73176149]), 

'spliti train score': array([ 0.57917218, 0©.7684849 , 0.87945837, 0.94822946, 
0.98504976, 0.99538678]), 

'split2 test score': array([ 0.57816504, 0.75533914, 0.78472578, 0.76832394, 
0.74799248, 0.7356911 ]), 

'split2 train score': array([ 0.57977019, 0.76613558, 0.87689548, 0.94566657, 
0.98368288, 0.99397719]), 

'split3 test score': array([ 0.57894737, 20.75051265, 0.78332194, 0.77682843, 
0.75768968, 0.73855092]), 

'split3 train score': array([ 0.57914745, 0©.76678626, 0.87634546, 0.94558346, 
0.98385443, 0.99474628]), 

'split4 test score': array([ 0.57877649, 20.75666439, 0.78947368, 0.78503076, 
0.76896787, 0.75 D. 

'split4 train score': array([ 0.57876303, 0.7665727 , 0.87655903, 0.94763369, 
0.98334188, 0.99325132]), 

'std fit time': array([ 0.03874582, 0.02297261, 1.18862097, 1.83901079, 
4.21516797, 2.93444269]), 

'std score time': array([ 0.00160112, 0.00605009, 0.00623053, 20.00698687, 
0.00713112, 0.00570195]), 

'std test score': array([ 0.00070799, 0.00375907, 0©.00432957, 0©.00668246, 
0.00612049]), 

'std train score': array([ 0.00032232, ©.00102466, 0.00131222, 0.00143229, 
0.00100223, 0.00073252])} 


# 在 箱 线 图 中 绘制 出 交叉 验证 结果 

# 对 分 类 器 性 能 进行 可 视 化 比较 

>>> search results = pd.DataFrame.from_dict({ 
'bow': bow search.cv results ['mean test score'], 
'tfidf': tfidf search.cv results ['mean test score'], 
'12': l2 search.cv results ['mean test score'] 











D 


# 常用 的 matplotlib 设 置 

# seaborn 用 来 美化 图 形 

>>> import matplotlib.pyplot as plt 
>>> import seaborn as sns 

>>> sns.set style("whitegrid") 

















>>> ax = sns.boxplot(data-search results, width=0.4) 
>>> ax.set ylabel('Accuracy', size=14) 
>>> ax.tick params(labelsize-14) 








bow 2 tfidf 
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4: 每 种 特征 集合 和 正则 化 设置 下 的 分 类 器 准确 度 分 布 一 一 使 用 5- 折 交叉 验证 的 平均 值 作 为 准 
确 度 测量 结果 


K 42 给 出 了 每 种 超 参数 设置 下 的 交叉 验证 分 类 器 准确 率 的 平均 值 。 每 列 中 带 星 号 的 值 表 
示 该 特征 集合 能 达到 的 最 高 准确 率 。 


表 4-2: 交叉 验证 分 类 器 准确 率 的 平均 得 











正则 化 参数 mo o£ 如 归 一 化 tf-idf 

0.00001 0.578971 0.575724 0.721638 

0.001 0.751811 0.575724 0.788648 * 

0.1 0.782839 * 0.589120 0.763566 

1 0.773818 0.734247 0.741150 

10 0.755160 0.776756 * 0.721467 

100 0.739373 0.761106 0.712309 

在 图 4-4 中 ， 可 以 看 出 8 归 一 化 特征 的 结果 非常 糟糕 。 但 不 要 被 这 张 图 蒙蔽 ， 准 确 率 如 























此 之 低 是 因为 使 用 了 非常 不 合适 的 正则 化 参数 设置 。 这 个 具体 的 例子 说 明了 不 合适 的 超 参 
数 设置 可 以 导致 得 出 非常 错误 的 结论 。 如 果 使 用 每 种 特征 集合 的 最 优 超 参 数 设置 来 训练 模 
型 ， 那 么 不 同 特征 集合 的 准确 率 得 分 是 非常 接近 的 ， 如 例 4-6 所 示 。 





例 4-6 比较 不 同 特征 集合 的 最 终 训 练 与 测试 步骤 





# 使 用 前 面 找到 的 最 优 超 参数 设置 ， 在 整个 训练 集 上 训练 一 个 最 终 模型 

# 在 测试 集 上 测量 准确 度 

>>> m1 = simple logistic classify(X tr bow, y tr, X te bow, y te, 'bow', 

es _C=bow_search.best_params_['C']) 

>>> m2 = simple logistic classify(X tr l2, y tr, X te l2, y te, 'l2-normalized', 
€ _C=12_search.best_params_['C']) 

>>> m3 = simple logistic classify(X tr tfidf, y tr, X_te_tfidf, y te, 'tf-idf', 
e _C=tfidf_search.best_params_['C']) 

Test score with bow features: 0.78360708021 

Test score with 12-normalized features: 0.780178599904 

Test score with tf-idf features: 0.788470738319 
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恰当 地 调 优 可 以 提高 所 有 特征 集合 的 准确 率 ， 这 三 种 特征 集合 经 过 正则 化 逻辑 回归 后 ， 都 
得 到 了 相似 的 分 类 准确 率 。tf-idf 模型 的 准确 率 稍稍 高 一 些 ， 但 这 种 差别 似乎 不 是 统计 显 
车 的 。 这 些 结果 令 我 们 非常 困惑 。 如 果 特 征 缩放 的 效果 并 不 比 普通 的 词 袋 表示 好 ， 那 它 到 
底 有 什么 意义 ? 如 果 thid 没有 什么 意义 ， 那 我 们 为 什么 还 要 这 么 大 动 干 戈 ? RH, 
我 们 将 试图 回答 这 些 问 题 。 


S D > 
4.3 深入 研究 : 发 生 了 什么 
为 了 弄 清 楚 结 果 背 后 的 原因 ， 我 们 必须 知道 模型 是 如 何 使 用 特征 的 。 对 于 逻辑 回归 这 种 线 
性 模型 ， 这 个 过 程 是 通过 一 个 称 为 数据 矩阵 的 中 间 对 象 实现 的 。 


数据 矩阵 中 包含 有 数据 点 ， 它 们 是 由 固定 长 度 的 扁平 向 量 表示 的 。 如 果 使 用 词 袋 向 量 ， 数 
据 矩 阵 又 可 以 称 为 文档 一 词 和 矩阵。 图 3-1 展示 了 一 个 向 量 形式 的 词 袋 向 量 ， 图 4-1 演示 了 
特征 空间 中 的 4 个 词 袋 向 量 。 要 生成 一 个 文档 - 词 矩 阵 ， 只 需 得 到 文档 向 量 ， 把 它们 放 
平 ,再 彼此 县 加 起 来 即 可 。 这 种 矩阵 的 列表 示 词 汇 表 中 所 有 可 能 出 现 的 单词 ( 见 图 4-5)。 
因为 多 数 文档 只 包含 所 有 可 能 出 现 的 单词 中 的 一 小 部 分 ， 所 有 和 矩阵 中 的 多 数 元 素 都 是 0， 
这 是 个 稀疏 矩阵 。 











































































































图 4-5: 5 个 文档 7 个 单词 的 文档 一 词 和 矩阵 示例 


特征 缩放 实质 上 是 数据 矩阵 上 的 列 操作 。 特 别 地 ，tf-idf 和 归 一 化 都 是 对 整个 列 〈 例 如 ， 
一 个 元 词 特征 ) 乘 以 一 个 常数 。 


tf-idf = 列 缩放 
tf-idf #0 C 归 一 化 都 是 数据 矩阵 上 的 列 操作 。 














正如 附录 A 中 所 介绍 的 ， 训 练 一 个 线性 分 类 器 其 实 就 是 找到 特征 (数据 矩阵 的 列 向 量 ) 的 
最 优 线性 组 合 。 解 空间 可 以 由 数据 矩阵 的 列 空间 和 和 零 空 间 表示 出 来 ， 我 们 训练 出 的 线性 分 
类 器 的 质量 直接 依赖 于 数据 矩阵 的 霉 空间 和 列 空间 。 一 个 巨大 的 列 空 间 意味 着 特征 之 间 几 
乎 没有 线性 相关 性 ， 这 通常 是 好 事 。 零 空间 中 包含 不 能 表示 为 现 有 数据 的 线性 组 合 的 “ 奇 
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异 ” 数 据点 。 一 个 巨大 的 零 空间 会 是 非常 麻烦 的 。( 对 于 想 复习 线性 决策 面 、 特 征 分 解 和 
和 矩阵 基本 子 空间 这 些 概念 的 读者 ， 强 烈 建议 你 们 仔细 阅读 一 下 附录 A. ) 

















列 缩放 操作 对 数据 矩阵 的 列 空间 和 零 空 间 有 多 大 的 影响 ?答案 是 “影响 并 不 大 ”。 但 对 于 
tidf 和 C 归 一 化 来 说 ， 情 况 会 有 点 不 一 样 。 下 面 解释 一 下 。 


由 于 若干 原因 ， 数 据 抢 阵 的 零 空 间 可 以 非常 大 。 首 先 ， 很 多 数据 集中 的 数据 点 彼此 非常 相 
似 ， 这 意味 着 与 数据 集中 数据 点 的 数量 相 比 ， 有 效 的 行 空 间 非 常 小 。 其 次 ， 特 征 数 量 可 以 
比 数 据点 数量 多 得 多 。 词 袋 表示 法 尤其 可 能 创建 出 巨大 的 特征 空间 。 在 我 们 的 Yelp 示例 
中 ， 训 练 集中 有 29 000 条 点 评 和 47 000 个 特征 。 而 且 ， 唯 一 单词 的 数量 通常 会 随 着 数据 
集中 文档 数量 的 增加 而 增加 ， 所 以 ， 添 加 更 多 文档 不 一 定 会 降低 特征 和 数据 的 比例 ， 也 不 
一 定 会 缩减 零 空间 。 























通过 词 袋 表示 ， 与 特征 数量 相 比 ， 列 空间 相对 较 小 。 可 能 有 些 单 词 在 同一 文档 中 出 现 了 大 
致 相同 的 次 数 ， 这 会 导致 相应 的 列 向 量 几乎 是 线性 相关 的 ， 进 而 导致 列 空间 不 是 满 秩 的 〈 尽 
管 它 可 以 满 秩 )。( 满 秩 的 定义 请 参见 附录 AL) 这 种 情况 称 为 秩 亏 。 (与 动物 缺少 维生素 和 矿 
物质 的 情况 非常 类 似 ， 和 矩阵 也 可 以 缺少 秩 ， 这 样 输出 空间 就 不 像 它 本 应 的 那么 饱满 。) 


秩 亏 的 行 空间 和 列 空间 会 使 模型 对 间 题 用 力 过 猛 。 线 性 模型 会 为 数据 集中 的 每 个 特征 都 配 
一 个 权重 参数 。 如 果 行 空间 和 列 空 间 是 满 秩 的 ,模型 会 生成 输出 空间 中 的 任何 目标 向 量 。 
当 它 们 秩 亏 时 ， 模 型 会 具有 更 多 不 必要 的 自由 度 ， 这 会 导致 更 加 难以 确定 最 终 解 。 


特征 缩放 可 以 解决 数据 矩阵 的 秩 亏 问题 吗 ” 让 我 们 来 看 一 下 。 


列 空间 定义 为 所 有 列 向 量 的 线性 组 合 〈 加 粗 斜 体 字母 表示 向 量 ) : av + aw, + … + ase 
特征 缩放 使 用 向 量 与 一 个 常数 的 乘积 来 代替 这 个 向 量 ， 如 : vy = cv1。 但 只 要 使 用 & = avc 
代替 a,， 我 们 还 可 以 生成 原来 的 线性 组 合 ， 似 乎 特征 缩放 不 会 改变 列 空 间 的 秩 。 同 样 ， 特 
征 缩放 也 不 会 影响 零 空 间 的 秩 ， 因 为 我 们 可 以 对 权重 向 量 中 相应 的 元 素 进行 逆 缩放 来 抵消 
缩放 后 的 特征 列 。 


















































但 是 ， 这 里 仍然 有 一 个 问题 。 如 有 果 相 乘 的 标量 为 0， 那么 就 无 法 恢复 初始 的 线性 组 合 ， 
就 消失 了 。 如 果 这 个 向 量 与 其 他 列 线性 无 关 ， 那 么 我 们 就 有 效 地 缩减 了 列 空间 并 扩展 了 零 


空间 。 
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如 果 这 个 向 量 与 日 标 输出 不 相关 ， 那 么 我 们 就 有 效 地 消除 了 噪声 信号 ， 这 是 非常 好 的 二 
情 。 这 就 是 tidf 55 C 归 一 化 之 间 的 关键 区 别 。F 归 一 化 永远 不 会 计算 出 一 个 值 为 0 的 范 
数 ， 除 非 向 量 中 都 是 0。 如 果 向 量 接近 于 0， 那么 它 的 范 数 也 接近 于 0。 除 以 一 个 小 范 数 会 
突出 这 个 向 量 ， 并 使 它 更 长 。 




















TE 1: 严格 地 说 , 对 于 一 个 长 方形 矩阵 , 行 空间 和 列 空间 不 能 同时 满 秩 。 这 两 个 子 空间 的 最 大 秩 是 m (47 BO) 
和 nn ( 列 数 ) 中 较 小 的 那 一 个 。 
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男 一 方面 ， 人 fidf 会 生成 一 个 接近 于 0 的 缩放 因子 ， 如 图 4-2 所 示 。 当 单词 出 现在 训练 集中 
的 大 量 文档 中 时 ， 会 出 现 这 种 情况 ， 这 种 单词 很 可 能 与 目标 向 量 设 有 很 强 的 相关 性 。 除 去 
这 种 单词 ， 可 以 使 解决 方案 更 关注 列 空间 中 的 其 他 方向 ， 并 找到 更 好 的 解 (然而 准确 率 的 
提高 幅度 很 可 能 不 会 很 天， 因为 使 用 这 种 方法 通常 找 不 到 太 多 能 削减 的 噪声 方向 )。 


特征 缩放 (包括 f 归 一 化 和 tfidf) 的 真正 用 武之 地 是 加 快 解 的 收敛 速度 。 这 表现 在 它 能 
使 数据 矩阵 具有 明显 更 少 的 条 件数 (最 大 奇异 值 和 最 小 奇异 值 的 比值 ， 参 见 附录 A 中 关于 
这 些 名 词 的 详细 讨论 )。 实 际 上 ，& 归 一 化 使 得 条 件数 几乎 为 1。 但 并 不 是 条 件数 越 少 ， 解 
就 越 好 。 在 这 次 实验 中 ，2 归 一 化 收敛 得 比 词 袋 和 tf-idf 都 快 得 多 ， 但 它 对 过 拟 合 更 加 敏 
感 : 它 需 要 更 多 的 正则 化 ， 而 且 对 优化 过 程 中 的 迭代 次 数 更 加 敏感 。 







































































4.4 小 结 


在 这 一 章 ， 我 们 将 tfidf 作为 切入 点 ， 详 细 分 析 了 特征 变换 对 模型 的 影响 。tfidf 是 特征 缩放 
的 一 个 特例 ， 所 以 我 们 将 它 与 另 一 种 特征 缩放 方法 一 一 归 一 化 一 一 的 效果 进行 了 对 比 。 


结果 并 不 尽 如 人 意 。 与 普通 的 词 袋 表示 相 比 ，tf-idf 和 归 一 化 并 没有 提高 最 终 分 类 器 的 
准确 率 。 经 过 一 些 统计 建 模 和 线性 代数 分 析 ， 我 们 意识 到 了 原因 : 它们 都 没有 改变 数据 矩 
阵 的 列 空间 。 


二 者 之 间 有 个 小 区 别 ， 那 就 是 给 idf 既 可 以 “ 拉 长 ”单词 计数 ， 也 可 以 “压缩 ” 它 。 换 名 
话说 ， 它 可 以 使 某 些 计数 变 大 ， 同 时 使 其 他 计数 接近 于 0。 因 此 ，tfidf 可 以 比较 彻底 地 消 
除 那 些 没 有 信息 量 的 单词 。 

通过 这 种 方法 ， 我 们 还 发 现 了 特征 缩放 的 另 一 个 作用 : 它 可 以 减少 数据 和 矩阵 的 条 件数 ， 大 
大 加 快 训练 线性 模型 的 速度 。# 归 一 化 和 tf-idf 都 有 这 种 效果 。 

总 而 言 之 ， 我 们 的 收获 是 : 正确 的 特征 缩放 有 助 于 分 类 问题 。 正 确 缩放 可 以 突出 有 信息 量 
9 单词 ， 并 削弱 普通 单词 的 影响 。 它 还 可 以 减少 数据 矩阵 的 条 件数 。 正 确 的 缩放 不 一 定 是 
标准 的 列 缩放 。 
本 章 内 容 很 好 地 说 明了 在 一 般 情况 下 分 析 特 征 工程 效果 的 难度 。 改 变 特征 会 影响 训练 过 程 
以 及 随后 的 模型 。 尽 管线 性 模型 是 最 容易 理解 的 模型 ， 但 还 是 需要 极为 细致 的 实验 方法 和 
大 量 高 次 的 数学 知识 ， 才 能 梳理 出 理论 上 和 实际 的 影响 。 对 于 更 加 复杂 的 模型 或 特征 变 
换 ， 这 种 分 析 几 乎 是 不 可 能 实现 的 。 
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第 5 章 


分 类 变量 : 自动 化 时 代 的 数据 计数 





顾名思义 ， 分 类 变量 是 用 来 表示 类 别 或 标记 的 。 例 如 ， 分 类 变量 可 以 表示 世界 上 的 主要 城 
市 、 一 年 中 的 四 季 、 企 业 所 属 行业 (石油 、 旅 游 、 科 技 )， 等 等 。 在 实际 的 数据 集中 ， 类 
别 的 数量 总 是 有 限 的 。 类 别 可 以 用 数字 表示 ， 但 与 数值 型 变量 不 同 ， 分 类 变量 的 值 是 不 能 
被 排序 的 。( 作 为 行业 类 型 ， 石 油 和 旅游 之 间 是 分 不 出 大 小 的 。) 它们 又 称 为 无 序 变量 。 














可 以 用 一 个 简单 的 问题 作为 能 否 使 用 分 类 变量 的 试金石 :“ 我 们 是 需要 知道 两 个 值 有 多 大 
不 同 ， 还 是 只 需要 知道 它们 是 否 不 同 ? ”500 美元 的 股票 价格 是 100 美元 的 股票 价格 的 5 
倍 ， 所 以 ， 股 票 价格 应 该 用 连续 型 数值 变量 表示 。 另 一 方面 ， 公 司 所 属 行业 (石油 、 旅 
游 、 科 技 ， 等 等 ) 就 应 该 用 分 类 变量 表示 。 























大 型 分 类 变量 在 交易 记录 中 是 极其 常见 的 。 例 如 ， 很 多 Web 服务 使 用 ID 来 跟踪 用 户 ，ID 
就 是 一 个 分 类 变量 ， 它 的 值 根据 服务 的 用 户 数 量 的 不 同 ， 可 能 有 几 百 个 到 几 亿 个 。 大 型 分 
类 变量 的 另 一 个 例子 是 互联 网 交易 中 的 IP 地 址 。 尽 管用 户 ID 和 1IP 地 址 是 用 数值 表示 的 ， 
但 它们 是 分 类 变量 ， 因 为 它们 的 大 小 与 当前 任务 通常 是 没有 关系 的 。 举 例 来 说 ， 当 进行 个 
人 交易 中 的 欺诈 检测 时 ，IP 地 址 是 个 相关 变量 一 一 有 些 IP 地 址 或 子 网 会 生成 更 多 的 欺诈 
交易 。 但 地 址 为 164.203.x.x 的 子 网 不 会 天 生 比 164.202.x.x 的 子 网 更 具 欺 诈 性 ， 子 网 地 址 
的 数值 在 这 里 并 不 重要 。 








文档 语料库 的 词汇 表 可 以 表示 为 一 个 大 型 分 类 变量 ， 类 别 就 是 唯一 的 单词 。 表 示 如 此 多 的 
不 同类 别 需 要 很 高 的 计算 成 本 。 如 果 一 个 类 别 (如 一 个 单词 ) 在 一 个 数据 点 (文档) 中 出 
现 了 多 次 ， 就 可 以 将 它 表示 为 一 个 计数 ， 并 通过 计数 统计 表示 所 有 类 别 。 这 种 方法 称 为 分 
箱 计 数 。 本 章 先 讨论 分 类 变量 的 一 般 表 示 ， 然 后 逐渐 过 渡 到 用 于 大 型 分 类 变量 的 分 箱 计 数 
方法 。 在 现代 数据 集中 ， 大 型 分 类 变量 非常 常见 。 
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5.1 分 类 变量 的 编码 


分 类 变量 中 的 类 别 通 常 不 是 数值 型 的 。' 例如 ， 眼 睛 的 颜色 可 以 是 “黑色 ”“ 蓝 色 ” 和 “ 神 
色 ”， 等 等 。 因 此 ， 需 要 一 种 编码 方法 来 将 非 数 值 型 的 类 别 转 换 为 数值 。 我 们 很 容易 想到 ， 
可 以 简单 地 为 大 个 可 能 类 别 中 的 每 个 类 别 分 配 一 个 整数 ， 如 从 1 到 x， 但 这 样 做 的 结果 是 
使 类 别 彼此 之 间 有 了 顺序 ， 这 在 分 类 变量 中 是 不 允许 的 。 所 以 ， 我 们 要 想 个 别 的 方法 。 











5.1.1 one-hot 编 码 

更 好 的 方法 是 使 用 一 组 比特 位 ， 每 个 比特 位 表示 一 种 可 能 的 类 别 。 如 果 变 量 不 能 同时 属于 
多 个 类 别 ， 那 么 这 组 值 中 就 只 有 一 个 比特 位 是 “ 开 ” 的 。 这 就 是 one-hot 编码 ， 它 可 以 通 
过 scikit-learn 中 的 sklearn.preprocessing.OneHotEncoder 实现 。 每 个 比特 位 表示 一 个 特 
征 ， 因 此 ,一 个 可 能 有 个 类 别 的 分 类 变量 就 可 以 编码 为 一 个 长 度 为 的 特征 向 量 。 表 5-1 
给 出 了 一 个 例子 。 


表 5-1: 表示 3 个 城市 的 分 类 变量 的 one-hot 编 码 
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San Francisco 1 0 0 
New York 0 1 0 
Seattle 0 0 1 


one-hot 编码 很 容易 理解 ， 但 它 使 用 的 比特 位 要 比 实际 需要 的 多 一 位 。 如 果 k-1 位 都 是 0， 
那么 最 后 一 位 肯定 是 1， 因 为 变量 之 CRURA DX 。 在 数学 上 ， 可 以 将 这 个 限制 条 
件 表 述 为 “所 有 位 的 和 必须 等 于 1 












































etet: +e=l 
于 是 就 得 到 了 一 个 线性 相关 关系 。 正 如 我 们 在 第 4 章 中 发 现 的 那样 ， 线 性 相关 的 特征 有 一 
点 讨厌 ， 因 为 它们 会 使 训练 出 的 模型 不 唯一 。 特 征 的 不 同 线性 组 合 可 以 做 出 同样 的 预测 ， 
所 以 我 们 需要 做 些 额外 的 努力 才能 理解 某 个 特征 对 预测 结果 的 作用 。 


5.1.2 ”虚拟 编码 
one-hot 编码 的 问题 是 它 允 许 有 个 自由 度 ， 而 变量 本 身 只 需要 -1 个 自由 度 。 虚 拟 编码 
在 进行 表示 时 只 使 用 ki 个 特征 ， 除 去 了 额外 的 自由 度 ( 见 表 5-2)。 没 有 被 使 用 的 那个 特 
























































注 1: 在 标准 的 统计 学 语言 中 ， 表 示 类 别 的 技术 术语 是 水 平 。 有 两 个 不 同类 别 的 分 类 变量 具有 两 个 水 平 。 但 
在 统计 学 中 ， 还 有 一 些 其 他 的 概念 也 称 为 水 平 ， 所 以 本 书 不 使 用 这 个 名 词 ， 而 是 使 用 更 加 简单 明了 的 
名 词 “ 类 别 ”。 
注 2: 好 奇 的 读者 会 想 知 道 ,为 什么 one-hot 编码 (one-hot encoding) 被 称 为 “encoding”, 而 虚拟 编码 (dummy 
coding) 被 称 为 “coding”。 这 主要 是 历史 原因 。 我 猜想 one-hot 编码 首先 流行 于 电子 工程 领域 ， 其 中 
信息 总 是 被 编码 (encode) 和 解码 (decode)。 而 另 一 方面 ， 虚 拟 编 码 和 效果 编码 (effect coding) 是 
由 统计 学 社区 发 明 的 ， 由 于 某 种 原因 ,“en” 没 有 在 这 个 学 术 分 支流 行 起 来 。 


































































































征 通过 一 个 全 零 向 量 来 表示 ， 它 称 为 参照 类 。 虚 拟 编 码 和 one-hot 编码 都 可 以 通过 Pandas 
包 中 的 pandas.get_dummies 来 实现 。 


表 5-2: 表示 3 个 城市 的 分 类 变量 的 虚拟 编码 





€4 €» 
San Francisco 1 0 
New York 0 1 
Seattle 0 
































使 用 虚拟 编码 的 模型 结果 比 使 用 one-hot 编码 的 模型 结果 更 具 解释 性 ， 在 简单 的 线性 回归 
问题 中 很 容易 看 出 这 一 点 。 假 设 有 一 些 公寓 租金 的 数据 ， 这 些 公寓 位 于 3 个 城市 : 旧金山 


(SF)、 纽 约 (NYC) 和 西雅图 (Seattle), ， 见 表 5-3, 


























表 5-3: 3 个 城市 公寓 价格 的 模拟 数据 集 





城 市 m € 
0 SF 3999 
1 SF 4000 
2 SF 4001 
3 NYC 3499 
4 NYC 3500 
5 NYC 3501 
6 Seattle 2499 
7 Seattle 2500 
8 Seattle 2501 


可 以 仅 基 于 城市 标识 训练 一 个 线性 回归 器 来 预测 租金 ( 见 例 5-1) 。 





线性 回归 模型 可 以 写成 如 下 形式 : 








y= wx t WX, 














通常 ， 我 们 还 要 加 上 一 个 额外 的 常数 ， 称 为 截 距 ， 使 得 当 x 的 值 都 为 0 时 y 值 可 以 不 为 0: 











yw tt + wX, +b 


例 5-1. 对 使 用 one-hot 编码 和 虚拟 编码 的 分 类 变量 进行 线性 回归 
>>> import pandas 
>>> from sklearn import linear_model 











# 定义 一 个 模拟 数据 集 ， 表 示 纽 约 、 旧 金山 和 西雅图 的 公寓 租金 

>>> df = pd.DataFrame({ 

'City': ['SF', 'SF', 'SF', 'NYC', 'NYC', 'NYC', 
'Seattle', 'Seattle', 'Seattle'], 

'Rent': [3999, 4000, 4001, 3499, 3500, 3501, 2499, 2500, 2501] 
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>>> df['Rent'].mean() 
3333.3333333333335 


# 将 数据 框 中 的 分 类 变量 转换 为 one-hot 编 码 并 拟 合 一 个 线性 
>>> one hot df = pd.get dummies(df, prefix-['city']) 
>>> one hot df 

Rent city NYC city SF city Seattle 

3999 0. 1 0.0 

4000 
4001 
3499 
3500 
3501 
2499 
2500 
2501 
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归 模 型 


ONAN I» UN) HÀ C 
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>>> model = linear regression.LinearRegression() 

>>> model.fit(one hot df[['city NYC', 'city SF', 'city Seattle']], 
s one hot df['Rent']) 

>>> model.coef 

array([ 166.66666667,  666.66666667, -833.33333333]) 

>>> model.intercept 

3333.3333333333335 


# 为 虚拟 编码 训练 一 个 线性 回归 模型 ， 指 定 drop_first 标 志 来 生成 虚拟 编码 
>>> dummy df = pd.get dummies(df, prefix-['city'], drop first-True) 
>>> dummy df 

Rent city SF city Seattle 

3999 d. 0.0 

4000 
4001 
3499 
3500 
3501 
2499 
2500 
2501 








co ~ 和 上 WwWwP © 
cococcoccoconmnÓmíni 
cOoOcoooccoccococoo 
PAP OO 
cOocococcococooco 


>>> model.fit(dummy df[['city SF', 'city Seattle']], dummy df['Rent']) 
>>> model.coef 

array([ 500., -1000.]) 

>>> model.intercept_ 

3500.0 





使 用 one-hot 编码 时 ， 截 距 项 表示 目标 变量 Rent 的 整体 均值 ， 每 个 线性 系数 表示 相应 城中 
的 租金 均值 与 整体 均值 有 多 大 差别 。 


使 用 虚拟 编码 时 ， 偏 差 系数 表示 响应 变量 y 对 于 参照 类 的 均值 ， 本 例 中 参照 类 是 纽约 。 第 i 
个 特征 的 系数 等 于 第 i 个 类 别 的 均值 与 参照 类 均值 的 差 。 


ER 5-4 中 ， 你 可 以 清楚 地 看 出 这 两 种 编码 方法 会 生成 相差 很 大 的 线性 模型 系数 。 


oy 























表 5-4: 线性 回归 系数 





Xi X2 X3 b 
one-hot 编码 166.67 666.67 —833.33 3333.33 
虚拟 编码 0 500 —1000 3500 


5.1.8 效果 编码 





另 一 种 分 类 变量 编码 是 效果 编码 。 效 果 编 码 与 虚拟 编码 非常 相似 ， 区 别 在 于 参照 类 是 用 全 








部 由 -1 组 成 的 向 量 表示 的 ， 参 见 表 5-5, 


表 5-5: 表示 3 个 城市 的 分 类 变量 的 效果 编码 





€4 €» 
San Francisco 1 0 
New York 0 1 
Seattle e =f 























编码 作为 输入 的 情况 。 截 距 项 表示 目标 变量 














效果 编码 与 虚拟 编码 非常 相似 ， 但 它 的 线性 回归 模型 更 容易 解释 。 例 5-2 演示 了 使 有 
的 整体 均值 ， 各 个 系数 表示 了 各 个 类 别 的 均 

















日 效果 





值 与 整体 均值 之 间 的 差 。( 这 称 为 类 别 或 水 平 的 主 效果 ， 效 果 编 码 的 名 称 就 是 由 此 而 来 。) 


one-hot 编码 实际 上 也 可 以 得 到 同样 的 截 距 和 系数 ， 但 它 的 每 个 城市 都 有 一 个 线性 系数 。 在 














效果 编码 中 ， 没 有 单独 的 特征 来 表示 参照 类 ， 所 以 参照 类 的 效果 需要 单独 计算 ， 它 是 所 有 
其 他 类 别 的 系数 的 相反 数 之 和 。( 参 见 UCLA IDRE 网 站 上 的 “FAQ: What is effect coding?” 


以 获得 更 多 详细 信息 。) 
15-2 使 用 效果 编码 的 线性 回归 


>>> effect df = dummy df.copy() 





>>> effect df.ix[3:5, ['city SF', 'city Seattle']] = -1.0 


>>> effect df 

Rent city SF city Seattle 
3999 1 0.0 

4000 
4001 
3499 
3500 
3501 
2499 
2500 
2501 


co - OU UN H OG 
oa dg 
cocconbBnmnbBmnBmnnmauÓ 
cOocococcococooo 
road 
PPAPAPAPAPOO 
cOocococcocooco 


>>> model.fit(effect df[['city SF', 'city Seattle']], effect df['Rent']) 


>>> model.coef 

array([ 666.66666667, -833.33333333]) 
>>> model.intercept 
3333.3333333333335 
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5.1.4 各 种 分 类 变量 编码 的 优 缺 点 

one-hot 编码 、 虚 拟 编码 和 效果 编码 彼此 之 间 非常 相似 ， 它 们 都 有 各 自 的 优 缺 点 。one-hot 
编码 有 宛 余 ， 这 会 使 得 同一 个 问题 有 多 个 有 效 模型 ， 这 种 非 唯一 性 有 时 候 比 较 难以 解释 。 
它 的 优点 是 每 个 特征 都 明确 对 应 一 个 类 别 ， 而 且 可 以 把 缺失 数据 编码 为 全 零 向 量 ， 模 型 输 
出 也 是 目标 变量 的 总 体 均值 。 


虚拟 编码 和 效果 编码 没有 元 余 ， 它 们 可 以 生成 唯一 的 可 解释 的 模型 。 虚 拟 编码 的 缺点 是 不 
太 容 易 处 理 缺 失 数据 ， 因 为 全 零 向 量 已 经 映射 为 参照 类 了 。 它 还 会 将 每 个 类 别 的 效果 表示 
为 与 参照 类 的 相对 值 ， 这 看 上 去 有 点 不 直观 。 


效果 编码 使 用 另外 一 种 编码 表示 参照 类 ， 从 而 避免 了 这 个 问题 ， 但 是 全 由 -1 组 成 的 向 量 
是 个 密集 向 量 ， 计 算 和 存储 的 成 本 都 比较 高 。 正 是 因为 这 个 原因 ， 像 Pandas 和 scikit-learn 
这 样 的 常用 机 器 学 习 软 件 包 更 喜欢 使 用 虚拟 编码 或 one-hot 编码 ， 而 不 是 效果 编码 。 


当 类 别 的 数量 变 得 非常 大 时 ， 这 3 种 编码 方式 都 会 出 现 问题 ， 所 以 需要 另外 的 策略 来 处 理 
超大 型 分 类 变量 。 


5.2 处理 大 型 分 类 变量 


互联 网 上 的 自动 数据 采集 可 以 生成 大 型 分 类 变量 ， 在 定向 广告 和 欺诈 检测 这 样 的 应 用 中 ， 
这 种 情况 非常 常见 。 


在 定向 广告 应 用 中 ， 我 们 的 任务 是 为 一 个 用 户 匹 配 一 组 广告 。 这 时 的 特征 包括 用 户 ID、 广 
告 的 站 点 域名 、 查 询 语句 、 当 前 页 以 及 这 些 特 征 的 所 有 成 对 组 合 。( 查 询 语句 是 一 个 文本 
字符 串 ， 可 以 被 分 解 转 换 成 一 般 的 文本 特征 。 但 是 ， 查 询 语句 一 般 很 短 ， 而 且 通 常 由 短语 
组 成 ， 所 以 这 时 最 好 的 做 法 是 保持 它们 原封 不 动 或 者 通过 一 个 散 列 函 数 来 传递 ， 以 使 得 存 
储 和 比较 更 加 容易 。 稍 后 会 详细 地 讨论 散 列 操作 。) 这 些 特征 中 的 每 一 个 都 是 非常 巨大 的 
分 类 变量 ,我们 面临 的 挑战 就 是 找到 一 种 合适 的 特征 表示 方法 ， 既 要 内 存 高 效 ， 又 能 生成 
精确 的 、 训 练 速度 很 快 的 模型 。 


现 有 的 解决 方案 可 以 分 类 (哈哈) 如 下 。 






























































> 


























(1) 不 在 编码 问题 上 搞 什么 花样 ， 使 用 一 个 简单 、 容 易 训 练 的 模型 ， 在 很 多 机 器 上 使 用 
one-hot 编码 训练 线性 模型 ( 丙 辑 回归 或 线性 支持 向 量 机 )。 

(2) 压缩 特征 ， 有 两 种 方式 。 
a) 特征 散 列 化 ， 通 常用 于 线性 模型 。 
b) 分 箱 计数 ， 常 用 于 线性 模型 和 树 模型 。 


使 用 一 般 的 one-hot 编码 也 是 个 不 错 的 选择 。 对 于 微软 公司 的 广告 搜索 引擎 ，Graepel 等 人 
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就 在 一 个 贝 叶 斯 probit 回归 模型 (可 用 简单 的 更 新 在 线 训练 ) 中 使 用 了 这 种 二 值 特 征 。 与 
此 同时 ， 其 他 一 些 研究 小 组 则 致力 于 特征 压缩 方法 。Yahool 的 研究 者 们 对 特征 散 列 化 推 
pÆ (Weinberger 等 ，2009) ， 但 是 McMahan 等 人 在 Google 广告 引擎 上 试验 了 特征 散 
列 化 ， 却 没有 取得 什么 显著 的 进展 。 而 微软 的 其 他 研究 者 又 在 实践 分 箱 计 数 这 种 思想 了 
(Bilenko, 2015), 























正如 我 们 将 看 到 的 ， 所 有 方法 都 有 各 自 的 优点 和 缺点 。 我 们 先 介 绍 方法 本 身 ， 然 后 再 讨论 
EMIT ABET 


5.2.1 特征 散 列 化 

散 列 函 数 是 一 种 确定 性 函数 ， 它 可 以 将 一 个 可 能 无 界 的 整数 映射 到 一 个 有 限 的 整数 范围 
[1, m] 中 。 因 为 输入 域 可 能 大 于 输出 范围 ， 所 以 可 能 有 多 个 值 被 映射 为 同样 的 输出 ， 这 称 
为 碰撞 。 均 匀 散 列 函 数 可 以 确保 将 大 臻 相同 数量 的 数值 映射 到 m 个 分 箱 中 。 






































我 们 可 以 形象 地 将 散 列 函 数 想象 为 一 台 机 器 ， 它 吸入 一 些 带 数字 标号 的 圆 球 ( 键 )， 再 把 
它们 分 发 到 m 个 分 箱 中 。 标 有 同样 数字 的 球 总 是 被 分 发 到 同一 个 分 箱 中 〈 见 图 5-1) 。 散 列 
国 数 在 保持 特征 空间 的 同时 ， 又 可 以 在 机 绒 学 习 的 训练 和 评价 周期 中 减少 存储 空间 和 处 理 
时 间 。 


























键 散 列 函数 散 列 值 














5-1. 散 列 函数 可 以 将 键 映 射 到 分 箱 


我 们 可 以 为 任何 能 表示 为 数值 的 对 象 (也 就 是 任何 能 存储 在 计算 机 上 的 数据 ) 构造 散 列 函 
数 ， 这 些 对 象 包 括 数 值 、 字 符 串 、 复 杂 结 构 ， 等 等 。 
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当 特 征 很 多 时 ， 保 存 特 征 向 量 需 要 大 量 空间 。 通 过 对 特征 ID 应 用 散 列 函数 ， 特 征 散 列 化 
可 以 将 初始 特征 向 量 压缩 为 m 维 向 量 ， 如 例 5-3 所 示 。 举 例 来 说 ， 如 果 初 始 特 征 是 一 篇 文 
档 中 的 单词 ， 那 么 不 管 输入 散 列 函数 的 有 多 少 唯一 单词 ， 散 列 化 之 后 的 特征 都 应 该 是 固定 
长 度 为 m 的 词汇 表 。 


例 5-3 单词 特征 的 特征 散 列 化 
>>> def hash_features(word_list, m): 
output = [0] * m 
for word in word list: 
index = hash fcn(word) % m 
output[index] += 1 
return output 






































特征 散 列 化 的 另 一 种 变 体 是 添加 一 个 正 负 号 ， 这 样 就 可 以 从 散 列 后 的 分 箱 中 加 上 或 减 去 计 
数 〈 见 例 5-4)。 用 统计 学 术语 说 ， 这 样 可 以 确保 散 列 后 特征 之 间 的 内 积 等 于 初始 特征 内 积 


例 5-A 带 符号 的 特征 散 列 化 
>>> def hash features(word list, m): 
output - [0] * m 
for word in word list: 
index = hash fcn(word) % m 
sign bit = sign hash(word) % 2 
if (sign bit -- 0): 
output[index] -= 1 
else: 
output[index] += 1 
return output 








HUN REE te O 二 -| ..BRCLSTEURERRERSHU RIETI C m, 
实际 上 ， 可 以 使 用 试 错 法 来 选择 正确 的 m。 








如 果 模 型 中 涉及 特征 向 量 和 系数 的 内 积 运 算 ， 那 么 就 可 以 使 用 特征 散 列 化 ， 比 如 线性 模型 
和 核 方法 。 在 垃圾 邮件 过 滤 任 务 中 ， 这 种 方法 已 经 取得 了 成 功 (Weinberger 等 ，2009)。 在 
定向 广告 应 用 中 ， 根 据 McMahan 等 人 的 报告 (2013)， 除 非 m 达到 10 亿 的 级 别 ， 否 则 不 
能 将 预测 误差 降低 到 可 接受 的 水 平 ， 在 这 种 情况 下 ， 不 会 有 足够 的 空间 市 省 。 


特征 散 列 化 的 一 个 缺点 是 散 列 后 的 特征 失去 了 可 解释 性 ， 只 是 初始 特征 的 某 种 聚合 。 


在 例 5-5 中 ， 我 们 使 用 scikit-learn 的 FeatureHasher 函数 ， 在 Yelp 点 评 数据 集 上 演示 存储 
空间 和 解释 性 的 这 种 取舍 。 


例 5-5 特征 散 列 化 (又 称 “ 散 列 戏法 ”) 


>>> import pandas as pd 
>>> import json 
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我 们 可 以 清楚 地 看 到 ， 特 和 


# 加 载 前 16 000 条 点 评 

>>> f = open('yelp academic dataset review.json') 
>>> js = [] 

>>> for i in range(10000): 

i js.append(json.loads(f.readline())) 

>>> f.close() 

>>> review df = pd.DataFrame(js) 


# 定义 m 为 唯一 的 business_id 的 数量 
>>> m = len(review df.business id.unique()) 
>>> m 


528 


>>> from sklearn.feature extraction import FeatureHasher 
>>> h = FeatureHasher(n features-m, input type-'string') 
h.transform(review df['business id']) 


>>> f 


# 散 列 化 对 特征 可 解释 性 的 影响 

>>> review df['business id'].unique().tolist()[0:5] 
[ ' vcNAWLLMAdR7D2nwwJ7nCA' , 
'UsFtqoBl7naz8AVUBZMjQQ' , 

' cE27W9VPgO88Qxe4ol6y g', 
'HZdLhv6COCleJMo7nPl-RA', 

'mVHrayjG3uZ RLHkLj-AMg'] 





>>> f.toarray() 

array([[ 0., 0., 0., ..., 0., 0., 0 
[ 0., 0., 0., ..., O., 0., O0. 
[9., 0., 0., ..., 0, 0., 0 


[9., 0., 0., ..., 0, 0, 0 
[ 0., 0., 0., ..., 0., 0., O0. 
[9., 0., 0., ..., 0, 0., 0 


# 不 是 很 好 ， 但 是 看 一 下 特征 的 存储 空间 大 小 


>>> from sys import getsizeof 


>>> print('Our pandas Series, in bytes: ', getsizeof(review df['business id'])) 
>>> print('Our hashed numpy array, in bytes: ', getsizeof(f)) 


Our pandas Series, in bytes: 790104 
Our hashed numpy array, in bytes: 56 





ERA ERT GLE KA ER. TRUST 


E 了 直观 的 用 户 可 解释 性 。 








对 于 大 数据 集 ， 当 从 数据 探索 和 可 视 化 进展 到 机 器 学 习 流 程 时 ， 我 们 可 以 很 容易 地 在 二 者 
之 间 做 出 取舍 。 


5.2.2 分 箱 计 数 


分 箱 计 数 是 机 器 学 习 中 的 重新 发 现 之 一 ， 从 广告 点 











Ff 率 预测 到 硬件 分 支 预测 ， 很 多 应 用 都 


对 它 进行 了 改造 并 使 用 (Yeh and Patt, 1991; Lee 等 ，1998; Chen 5$, 2009; Li“, 2010), 





{AK 














为 它 是 一 种 特征 工程 技术 ， 不 是 建 模 或 优化 方法 ， 所 以 没有 关于 它 的 研究 论文 。 关 于 
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这 种 技术 最 详细 的 描述 可 以 在 Misha Bilenko 的 博客 文章 “Big Learning Made Easy 一 with 
Counts!” 及 其 相关 幻灯 片 中 找到 。 


分 箱 计数 的 思想 稍 有 一 点 复杂 : 它 不 使 用 分 类 变量 的 值 作为 特征 ， 而 是 使 用 目标 变量 取 这 
个 值 的 条 件 概率 。 换 句 话 说， 我 们 不 对 分 类 变量 的 值 进行 编码 ， 而 是 要 计算 分 类 变 ene 
要 预测 的 目标 变量 之 间 的 相关 统计 量 。 对 于 那些 熟悉 朴素 贝 叶 斯 分 类 器 的 人 来 说 ， 这 个 乡 
计量 肯定 耳熟能详 ， 因 为 它 就 是 在 所 有 特征 都 是 独立 的 这 个 假设 之 下 的 各 个 类 别 的 条 dcm 
率 。 最 好 通过 一 个 例子 来 说 明 它 〈 见 表 5-6). 


表 5-6: 分 箱 计数 特征 示例 (根据 “Big Learning Made Easy 一 with Counts!” 一 文 进行 重 
制 ， 已 获得 许可 ) 
用 户 AtA RATA Be 查询 散 列 值 、 广 告 域 atá RATA MEME 



































Alice 5 120 0.0400 0x598fd4fe, foo.com 5000 30000 0.167 
Bob 20 230 0.0800 0x50fa3cc0, bar.org 100 900 0.100 
Joe 3 3 0.400 0x437a45el, qux.net 6 18 0.250 


分 箱 计数 假设 可 以 使 用 历史 数据 来 计算 统计 量 。 表 5-6 包含 了 分 类 变量 的 每 个 可 能 取 值 
的 累积 历史 计数 。 根 据 用 户 Alice 点 击 广告 的 次 数 和 她 没有 点 击 广告 的 次 数 ， 可 以 计算 
出 她 点 击 广告 的 概率 。 同 样 ， 也 可 以 计算 出 任意 一 个 查询 - 广告 域 组 合 的 点 击 概率 。 在 
训练 模型 时 ， 只 要 遇 到 Alice， 就 可 以 使 用 她 的 点 击 概率 作为 模型 的 输入 特征 。 对 于 像 
“0x437a45el, qux.net” (查询 散 列 值 — 广告 域 ) 这 样 的 成 对 特征 ， 也 可 以 进行 同样 的 处 理 。 


假设 有 10 000 个 用 户 ，one-hot 编码 会 生成 一 个 长 度 为 10 000 的 稀疏 向 量 ， 只 在 对 应 当前 
数据 点 的 列 上 有 一 个 1。 分 箱 计数 会 将 所 有 10 000 个 二 值 列 编码 为 一 个 单独 的 特征 ,是 0 
和 1 之 间 的 一 个 实数 值 。 


除了 历史 点 击 概率 ， 我 们 还 可 以 包括 其 他 特征 : 原始 计数 本 身 (点 击 数 和 未 点 击 数 )、 对 
数 优势 比 ， 或 任何 其 他 概率 衍生 指标 。 本 市 的 例子 是 预测 广告 点 击 率 ， 但 现 有 技术 是 用 来 
预测 一 般 性 的 二 值 分 类 问题 的 。 通 过 常用 的 将 二 值 分 类 扩展 为 多 值 分 类 的 技术 ， 如 一 对 多 
优势 比 或 其 他 多 类 别 标记 编码 技术 ， 我 们 很 容易 扩展 到 多 类 别 分 类 。 






































用 于 分 箱 计数 的 优势 比 和 对 数 优势 比 
优 执 比 通常 定义 在 两 个 二 值 变量 之 间 ， 它 通过 这 样 一 个 问题 来 衡量 两 个 变量 之 间 的 
联系 强度 :“ 当 盛 为 真 时 ， 了 在 多 大 程度 上 更 可 能 为 真 ? ”例如 ， 我 们 可 以 这 样 提问 : 
“Alice 在 多 大 程度 上 比 一 般 人 更 可 能 点 击 这 个 广告 ? ”在 这 里 ,XY 是 表示 “Alice X 4 
前 用 户 ” 的 二 值 变 量 ， 了 是 表示 “是 否 点 击 广 告 ” 的 变量 。 优 势 比 的 计算 要 使 用 双向 
IRA ( 表 中 的 4 个 数字 分 别 对 应 于 卫 和 了 的 4 种 可 能 组 合 )， 参 见 表 5-7。 











表 5-7: 表示 广告 点 击 和 用 户 的 列 联 表 





点 击 未 点 击 总 计 
Alice 5 120 125 
不 是 Alice 995 18 880 19 875 
总 计 1000 19 000 20 000 


给 定 输入 变量 仁和 目标 变量 了 ， 优 执 比 定义 如 下 : 

P(Y=1|X=1)/P(Y=0|X=1) 
P(Y=1|X=0)/P(Y=0|X=0) 

在 我 们 的 例子 中 ， 这 个 公式 可 以 转换 为 “Alice 点 击 广 告 的 概率 在 多 大 程度 上 高 于 她 不 
点 击 广告 的 概率 ”和 “其 他 人 点 击 广告 的 概率 在 多 大 程度 上 高 于 他 们 不 点 击 广 告 的 概 
率 ” 这 两 个 问题 的 比 。 这 样 ， 实 际 数值 为 : 











优势 比 = 








(5/125)/ 120/125) 
(995 /19 875)/ (18 880/19 875) 
再 简单 一 些 ， 我 们 只 看 分 子 ， 它 表示 一 个 用 户 (Alice) 点 击 广告 的 可 能 性 比 不 点 击 广 
告 的 可 能 性 大 多 少 ， 这 个 定义 也 适合 具有 多 个 值 (不 仅 两 个 值 ) 的 大 型 分 类 变量 : 





优势 比 (用 户 ， 广 告 点 击 ) = = 0.17906 


5/125 
120/125 


概率 比值 很 容易 特别 大 或 特别 小 。( 例 如 ， 会 有 几乎 从 来 不 点 击 广告 的 用 户 ， 也 会 有 频 
BRET SOAP.) 这 时 我 们 又 需要 使 用 对 数 变换 了 。 对 数 运算 另 一 个 有 用 的 性 质 是 
可 以 将 除法 转换 为 减法 : 


优势 比 (用 户 ， 广 告 点 击 ) = = 0.04166 





120 
125 








5 
对 数 优 势 比 (Alice， 广 告 点 击 ) = te ( 高 ie |- 3.178 














简 而 言 之 ， 分 箱 计数 将 一 个 分 类 变量 转换 为 与 其 值 相 关 的 统计 量 ， 它 可 以 将 一 个 大 型 的 、 
稀疏 的 、 二 值 的 分 类 变量 表示 (如 one-hot 编码 生成 的 结果 ) 转换 为 一 个 小 巧 的 、 密 集 的 、 
实数 型 的 数值 表示 OLE 5-2). 




















one-hot 编 码 分 箱 计数 统计 量 
O e o è e -» «.- | psi a 


e D e o o o9 "gt m Ám 











图 5-2: 分 类 变量 的 one-hot 编码 与 分 箱 计 数 统计 量 
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至 于 具体 的 实现 ， 分 箱 计数 需要 保存 每 个 类 别 与 其 相应 计数 之 间 的 映射 关系 。( 统 计量 的 
其 他 计算 工作 可 以 根据 原始 计数 直接 导出 。) 因此 ， 它 需要 O(b 大 小 的 空间 ， 其 中 是 分 
类 变量 中 唯一 值 的 个 数 。 

为 了 实际 演示 一 下 分 箱 计 数 ， 我 们 要 使 用 一 下 由 Avazu 主办 的 Kaggle 竞赛 中 的 数据 。 下 
看 是 这 个 数据 集 的 几 个 相关 统计 量 。 

。 共有 24 个 变量 ， 其 中 click 是 个 二 值 计数 器 ， 值 为 click fll no click, device id 用 来 跟 

踪 广 告 显示 在 哪个 设备 上 。 
。 整个 数据 集 包括 40 428 967 条 观测 ， 使 用 了 2686 408 台独 立 的 设备 。 



























































Avazu 竞赛 的 目标 是 使 用 广告 数据 预测 点 击 率 ， 但 我 们 要 使 用 这 个 数据 集 做 一 个 演示 ， 说 
明 对 于 大 量 的 流 式 数据 ， 分 箱 计数 是 如 何 显著 缩减 特征 空间 的 〈 见 例 5-6)。 


例 5-6 分 箱 计数 示例 


>>> import pandas as pd 

















# 使 用 这 个 超过 6GB 的 数据 集 的 前 10 669 行 作为 训练 集 


>>> df = pd.read csv('data/train subset.csv') 





# 看 看 训练 集中 有 多 少 个 唯一 的 特征 
>>> len(df['device id'].unique()) 
7201 








# 对 每 个 类 别 ， 我 们 要 计算 : 
# Theta = [counts, p(click), p(no click), p(click)/p(no click)] 


>>> def click counting(x, bin column): 
clicks = pd.Series(x[x['click'] > 0][bin column].value counts(), 
name='clicks') 
no_clicks = pd.Series(x[x['click'] < 1][bin_column].value_counts(), 
Name='no_clicks') 


counts = pd.DataFrame([clicks,no clicks]).T.fillna('0') 
counts['total clicks'] = counts['clicks'].astype('int64') + 

counts['no clicks'].astype('int64') 
return counts 


>>> def bin counting(counts): 

counts['N+'] = counts['clicks'] 

.astype('int64') 

.divide(counts['total clicks'].astype('int64')) 
counts['N-'] = counts['no clicks'] 

.astype('int64') 

.divide(counts['total clicks'].astype('int64')) 
counts['log N*'] = counts['N+'].divide(counts[ 'N-']) 
# QR AAG A 6 I PEE Th UE. 
bin counts = counts.filter(items- ['N+', 'N-', 'log_N+']) 
return counts, bin counts 

















# 分 箱 计数 示例 : device id 

>>> bin column = 'device id' 

>>> device clicks = click counting(df.filter(items-[bin column, 'click']), 
oie bin column) 

>>> device all, device bin counts = bin counting(device clicks) 


# 检查 一 下 ， 确 定 我 们 处 理 了 所 有 设备 


>>> len(device bin counts) 





7201 

>>> device all.sort values(by = 'total clicks', ascending-False).head(4) 
clicks no clicks total N+ N- log N-* 

a99f214a 15729 71206 86935 0.180928 20.819072 0.220894 

c357dbff 33 134 167 0.197605 20.802395 0.246269 

31daibdO 0 62 62 0.000000 1.000000 0.000000 

936e92fb 5 54 59 0.084746 0.915254 0.092593 


1. 如 何 处 理 稀有 类 
和 罕见 词 一 样 ， 稀 有 类 也 需要 特殊 处 理 。 设 想 一 个 一 年 只 登录 一 次 的 用 户 : 只 有 极 少 的 数 
据 能 用 来 可 靠 地 估计 这 个 用 户 的 广告 点 击 率 。 而 且 ， 稀 有 类 还 会 浪费 计数 表 中 的 空间 。 


解决 这 个 问题 的 一 种 方法 称 为 back-off， 这 是 一 种 将 所 有 稀有 类 的 计数 累加 到 一 个 特殊 分 
箱 中 的 简单 技术 ( 见 图 $5-3) 。 如 果 类 别 的 计数 大 于 一 个 确定 的 装 值 ， 那 么 就 使 用 它 自 己 的 
计数 统计 量 ， 否 则 ， 就 使 用 back-o 企 分 箱 的 统计 量 。 这 种 方法 本 质 上 就 是 把 单个 稀有 类 的 
统计 量 转换 为 使 用 所 有 稀有 类 计算 的 统计 量 。 当 使 用 back-off 方 法 时 ， 可 以 添加 一 个 表示 
统计 量 是 否 来 自 于 back-off 分 箱 的 二 值 指 示 器 。 





















































C— 
累加 到 back-off 分 箱 中 
的 类 别 统计 量 











5-3: 如 果 一 个 稀有 类 的 计数 超过 了 back-off 分 箱 阔 值 ， 就 使 用 它 自己 的 计数 统计 量 进行 建 模 


解决 这 个 问题 的 另外 一 种 方法 称 为 最 小 计数 图 (Cormode and Muthukrishnan, 2005) 。 在 这 
种 方法 中 ， 不 管 是 稀有 类 还 是 频繁 类 ， 所 有 类 别 都 通过 多 个 散 列 函数 进行 映射 ， 每 个 散 列 
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函数 的 输出 范围 m 都 远 远 小 于 类 别 数量 kx。 在 计算 统计 量 时 ， 需 要 使 用 所 有 散 列 函 数 进行 
计算 ,并 返回 结果 中 最 小 的 那个 统计 量 。 与 使 用 单 散 列 函数 相 比 ， 使 用 多 个 散 列 函 数 可 以 
降低 碰撞 概率 。 这 种 方法 的 有 效 之 处 在 于 ， 散 列 函 数 的 数量 乘 以 散 列表 大 小 m 之后， 不 但 
可 以 小 于 类 别 数量 x， 而 且 能 保持 非常 低 的 碰撞 概率 。 

















图 5-4 演示 了 这 个 过 程 。 对 于 每 个 项 目 i， 都 把 它 映 射 到 计数 数组 每 一 行 中 的 某 个 单元 。 当 
THA i 的 计数 c 更 新 时 ， 就 使 用 国 数 hh, 进行 散 列 ， 添 加 到 每 个 单元 中 。 

















图 5-4: 最 小 计数 图 


2. 防止 数据 泄露 

因为 分 箱 计数 要 依赖 历史 数据 生成 必需 的 统计 量 ， 所 以 它 需 要 等 待 一 段 时 间 以 完成 数据 收 
集 ， 这 就 会 在 学 习 流 程 中 导致 一 点 轻微 的 延迟 。 还 有 ， 当 数据 分 布 改变 时 ， 需 要 更 新 计 
数 。 数 据 变化 得 越 快 ， 计 数 重新 计算 的 频率 就 越 高 。 在 像 定向 广告 这 样 的 应 用 中 ， 用 户 偏 
好 和 常用 查询 变化 得 非常 快 ， 所 以 这 个 问题 变 得 特别 重要 ， 不 能 适应 当前 数据 分 布 的 变化 
意味 着 广告 平台 的 巨大 损失 。 


有 人 或 许 会 问 : 为 什么 不 使 用 同样 的 数据 集 来 计算 相关 统计 量 和 训练 模型 ? 这 种 想法 太 天 
真 了 。 这 里 最 大 的 问题 是 ， 统 计量 中 包含 目标 变量 ， 而 它 正 是 模型 试图 去 预测 的 。 使 用 和 输 
出 去 计算 输入 特征 会 导致 一 个 非常 严重 的 问题 ， 那 就 是 数据 泄露 。 简 单 地 说 ， 数 据 泄 露 会 
使 模型 中 包含 一 些 不 应 该 有 的 信息 ， 这 些 信息 可 以 使 模型 获得 某 种 不 现实 的 优势 ， 从 而 做 
出 更 加 精确 的 预测 。 出 现 数 据 泄露 有 多 种 原因 ， 比 如 测试 数据 泄露 到 训练 数据 中 ， 或 者 未 
来 数据 泄露 到 过 去 数据 中 。 只 要 模型 获得 了 在 生产 环境 中 实时 预测 时 不 应 该 接触 到 的 信 
息 ， 就 会 发 生 数据 泄露 。Kaggle 的 wiki 中 给 出 了 更 多 数据 泄露 的 例子 ， 以 及 它 不 利于 机 
器 学 习 应 用 的 原因 。 


如 果 在 分 箱 计 数 过 程 中 使 用 当前 数据 点 的 标签 来 计算 输入 统计 量 ， 就 会 造成 直接 的 数据 兹 
露 。 防 止 出 现 这 个 问题 的 一 种 方法 是 ， 严 格 隔离 计数 收集 (用 来 计算 分 箱 计 数 统 计量 ) 和 
训练 ， 如 图 5-5 所 示 ; 也 就 是 说 ， 使 用 过 去 的 数据 点 进行 计数 ， 使 用 当前 的 数据 点 进行 训 
练 ( 将 分 类 变量 映射 到 我 们 前 面 收集 到 的 历史 统计 量 上 )， 再 使 用 未 来 的 数据 点 进行 测试 。 
这 可 以 解决 数据 泄露 问题 ， 但 会 引发 前 面 提 过 的 流程 延迟 问题 (输入 统计 量 以 及 模型 会 滞 
后 于 当前 数据 )。 
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用 于 计算 分 箱 计 ”用 于 训练 的 数据 ] 于 测试 的 数据 
数 统计 量 的 数据 





























图 5-5: 使 用 时 间 窗 口 可 以 防止 分 箱 计数 过 程 中 的 数据 泄露 


还 有 一 种 基于 差分 隐私 的 解决 方案 。 对 于 一 个 统计 量 ， 如 果 不 管 有 没有 任何 一 个 数据 点 ， 
它 的 分 布 都 保持 基本 不 变 ， 那 么 它 就 是 近似 防 漏 的 。 实 际 上 ， 使 用 Laplace(0,1) 分 布 添加 
一 个 小 的 随机 噪声 ， 就 是 以 弥补 任何 来 自 单数 据点 的 六 在 泄露 。 这 种 思想 可 以 和 留 一 计数 
方法 结合 起 来 ， 构 成 用 于 当前 数据 的 统计 量 (Zhang, 2015)。 


3. 无 界 计数 

如 果 提 供 的 历史 数据 越 来 越 多 ， 统 计量 持续 更 新 ， 计 数 就 会 无 限 增长 。 这 对 于 模型 来 说 是 
个 问题 。 一 个 训练 好 的 模型 应 该 “知道 ”输入 数据 的 可 见 范围 。 训 练 好 的 决策 树 可 以 这 样 
表述 :“ 当 * 大 于 3 时 ， 预 测 值 为 1。 训练 好 的 线性 模型 可 以 这 样 表述 :“ 将 x 乘 以 0.7， 
然后 看 看 结果 是 否 大 于 全 局 平均 数 。 SA x 位 于 0 和 5 之 间 时 ， 这 些 可 能 是 正确 的 决策 。 
但 如 果 超 出 这 个 范围 呢 ? 没有 人 知道 。 


当 输 入 计数 增加 时 ， 模 型 需要 维持 原来 的 规模 。 如 有 果 计 数 累 积 得 比较 慢 ， 有 效 范 围 不 会 变 
得 太 快 ， 模 型 就 不 需要 维护 得 特别 频繁 。 但 当 计 数 增加 得 非常 快 时 ， 过 于 频繁 的 维护 就 会 
造成 很 多 问题 。 


由 于 这 个 原因 ， 通 常 更 好 的 做 法 是 使 用 归 一 化 后 的 计数 ， 这 样 就 可 以 保证 把 计数 值 限 制 在 
一 个 可 知 的 区 间 中 。 例 如 ， 点 击 率 的 估计 值 被 限制 在 [0, 1] 这 一 范围 。 另 一 种 方法 是 进行 
对 数 变换 ， 这 样 可 以 强加 一 个 严格 的 边界 ， 但 当 计数 值 非常 大 时 ， 变 换 结果 的 增加 速度 是 
非常 慢 的 。 

这 两 种 方法 都 不 能 保证 输入 分 布 保持 不 变 ( 例 如， 去 年 的 芭比 娃娃 已 经 过 时 了 ， 人 们 不 会 
再 点 击 那些 广告 )。 需 要 对 模型 进行 维护 ， 以 适应 输入 数据 分 布 中 这 些 更 加 基本 的 改变 ， 
或 者 将 整个 流程 转换 为 在 线 学 习 模 式 ， 使 得 模型 能 持续 地 适应 输入 变化 。 
































































































































5.3 h 
本 章 详 细 介 绍 的 每 种 方法 都 有 各 自 的 优点 和 缺点 ， 下 面 是 一 个 简短 的 总 结 。 
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普通 one-hot 编 码 





















































































































































空间 要 求 使 用 稀 玻 向 量 格式 时 为 0(n)， 其 中 是 数据 点 的 个 数 
计算 能 力 要 求 线性 模型 下 为 O(n 有 )， 其 中 上 是 类 别 数 量 
优点 。 容易 实现 

。 可 能 是 最 精确 的 

。 可 用 于 在 线 学 习 
缺点 。 计算 效率 不 高 

。 不 能 适应 可 增长 的 类 别 

。 只 适用 于 线性 模型 

。 对 于 大 数据 集 ， 需 要 大 规模 的 分 布 式 优化 
特征 散 列 化 
空间 要 求 使 用 稀 玻 向 量 格式 时 为 O(n)， 基 中 是 数据 点 的 个 数 
计算 能 力 要 求 线性 模型 和 核 方法 下 为 O(nm)， 其 中 m 是 散 列 分 箱 的 个 数 
优点 。 容易 实现 

。 模型 训练 成 本 更 低 

。 容易 适应 新 类 别 

。 容易 处 理 稀有 类 

。 可 用 于 在 线 学习 
缺点 。 只 适合 线性 模型 或 核 方法 

。 散 列 后 的 特征 无 法 解释 

。 精确 度 难以 保证 
分 箱 计数 
空间 要 求 OO+ 月 ， 将 每 个 数据 点 表示 为 小 而 密集 的 向 量 ， 加 上 为 每 个 类 别 保存 的 计数 统计 量 
计算 能 力 要 求 线性 模型 下 为 O(n)， 也 适用 于 非 线性 模型 ， 比 如 树 
优点 。 训练 阶段 的 计算 负担 最 小 

。 可 用 于 基于 树 的 模型 

”比较 容易 适应 新 类 别 

。 可 使 用 back-off 方 法 或 最 小 计数 图 处 理 稀 有 类 

。 可 解释 
缺点 。 需 要 历史 数据 

”需要 延迟 更 新 ， 不 完全 适合 在 线 学 习 


很 可 能 导致 数据 汽 露 


正如 你 看 到 的 ， 没 有 一 种 方法 是 完美 无 缺 的 。 应 该 使 用 哪 种 方法 取决 于 具体 的 模型 。 线 性 


模型 的 训练 成 本 低 ， 因 此 可 以 使 用 未 经 压缩 的 特征 表示 ， 比 如 one-hot 编码 。 另 一 方面 ， 














基于 树 的 模型 需要 在 所 有 特征 中 重复 搜索 以 进行 正确 的 分 
征 表示 ， 比 如 分 箱 计数 。 特 征 散 列 化 位 于 这 两 个 极端 之 间 ， 但 结果 的 准确 率 众 说 纷 红 。 


5.4 参考 文献 


Agarwal, Alekh, Oliveier Chapelle, Miroslav Dudík, and John Langford. A Reliable Effective 
Terascale Linear Learning System [J]. Journal of Machine Learning Research 15 (2015): 1111—1133. 











[s] 
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第 6 章 





数据 降 维 ， 使 用 PCA 挤 压 数据 


通过 自动 数据 收集 和 特征 生成 技术 ， 可 以 快速 获取 大 量 特 征 ， 但 不 是 所 有 特征 都 是 有 用 
的 。 第 3 章 和 第 4 章 讨论 了 基于 频率 的 过 滤 技 术 和 特征 缩放 技术 ， 它 们 可 以 作为 消除 无 用 
特征 的 手段 。 下 面 仔细 研究 一 下 使 用 主 成 分 分 析 (principal component analysis, PCA) 来 




















降低 特征 维度 这 个 问题 。 











从 本 章 开 始 ， 我 们 要 研究 基于 模型 的 特征 工程 技术 。 在 此 之 前 介绍 的 大 部 分 技术 可 以 在 不 
考虑 数据 的 情况 下 进行 定义 。 例 如 ， 基 于 频率 的 过 滤 可 以 表述 为 “除去 所 有 小 于 的 计 


数 "， 不 用 考虑 数据 本 身 的 更 多 性 质 ， 就 可 以 实现 这 种 技术 。 





与 之 不 同 的 是 ， 基 于 模型 的 技术 需要 来 自 于 数据 的 信息 。 例 如 ，PCA 要 根据 数据 的 主轴 





进行 定义 。 在 前 面 的 章节 中 ， 数 据 、 特 征 和 模型 之 间 总 是 有 一 个 明确 的 界限 ， 











但 从 本 章 开 


台 ， 它 们 之 间 的 区 别 会 变 得 越 来 越 模糊 。 这 也 正 是 当前 特征 学 习 研 究 的 热点 所 在 。 








6.1 直观 理解 


数据 降 维 就 是 在 保留 重要 信息 的 同时 消除 那些 “无 信息 量 的 信息 "。 无 信息 上 








量 ” 有 多 种 定 


义 方法 ，PCA 关注 的 是 线性 相关 性 。 在 附录 A.2 节 中 ， 我 们 将 数据 和 矩阵 的 列 空间 描述 为 所 
有 特征 向 量 的 生成 空间 。 如 有 果 列 空间 的 秩 小 于 特征 总 数 ， 那 么 多 数 特征 就 是 几 个 关键 特征 
的 线性 组 合 。 线 性 相关 的 特征 是 对 空间 和 计算 能 力 的 浪费 ， 因 为 它们 包含 的 信息 可 以 从 更 
少 的 几 个 特征 中 推导 出 来 。 为 了 避免 这 种 情况 ，PCA 试图 将 数据 挤 压 到 一 个 维度 大 大 小 于 


























原 空间 的 线性 子 空间 ， 从 而 消除 这 些 “ 腔 肿 ”。 


我 们 在 图 中 画 出 特征 空间 中 的 数据 点 集合 。 每 个 圆 点 表示 一 个 数据 点 ， 整 个 数据 点 集合 形 
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成 了 一 个 点 团 。 在 图 6-1a 中 ， 数 据点 均匀 地 分 布 在 两 个 特征 维度 上 ， 点 团 充 满 了 特征 空 
间 。 在 这 个 例子 中 ， 列 空间 是 满 秩 的 。 然 而 ， 如 果 有 些 特征 是 其 他 特征 的 线性 组 合 ， 那 么 
点 团 就 不 会 这 么 饱满 ， 而 是 类 似 于 图 6-Ib。 图 中 是 一 个 扁平 的 点 团 ， 其 中 特征 1 是 特征 2 
的 一 个 复制 品 (或 是 一 个 和 标量 的 乘积 )。 在 这 种 情况 下 ， 我 们 称 点 团 的 本 征 维 数 为 1， 
使 它 存在 于 一 个 二 维特 征 空 间 中 。 


实际 上 ,彼此 完全 相同 的 特征 是 极其 罕见 的 ， 更 可 能 的 情况 是 非常 接近 于 相同 但 又 不 完全 
相同 的 特征 。 在 这 种 情况 下 ， 表 示 数 据 的 点 团 类 似 于 图 6-1c， 是 一 个 狭长 的 点 团 。 如 果 想 
削减 传递 给 模型 的 特征 数量 ， 可 以 用 一 个 新 的 特征 来 代替 特征 1 和 特征 2， 不 妨 称 之 为 特 
征 1.5， 它 位 于 两 个 初始 特征 之 间 的 对 角 线 上 。 这 样 ， 初 始 数据 集 就 可 以 用 一 个 数值 来 表 
fl $272. 































































































图 6-1: 特征 空间 中 的 点 团 : (a) MARA, (b) 低 维度 点 团 ，(c) 近似 低 维度 点 团 


PCA 的 核心 思想 是 ， 使 用 一 些 新 特征 代替 元 余 特 征 ， 这 些 新 特征 能 恰当 地 总 结 初始 特征 空 
间 中 包含 的 信息 。 当 只 有 两 个 特征 时 ， 很 容易 找 出 新 特征 ， 但 当初 始 特征 空间 中 有 成 百 上 
千 个 维度 时 ， 就 非常 困难 了 。 我 们 需要 一 种 方法 ， 先 用 数学 语言 描述 要 找 出 的 新 特征 ， 然 
后 使 用 最 优化 技术 来 找 出 它们 。 

对 “恰当 地 总 结 信息 ”的 一 种 数学 定义 是 ， 新 的 数据 点 团 应 该 尽量 多 地 保持 原 数据 集中 的 


该 尽 
信息 。 我 们 将 数据 点 团 独 压 成 了 一 个 局 二 的 饼 ， 但 我 们 希望 这 个 饼 在 正确 的 方向 上 尽 可 能 
地 大 。 这 意味 着 我 们 需要 一 种 测量 信息 量 的 方式 。 


信息 量 肯 定 与 距离 有 关 ， 但 数据 集合 中 的 距离 表示 总 是 有 点 模糊 。 有 人 使 用 集合 中 任意 两 
点 之 间距 离 的 最 大 值 ， 但 事实 证 明 这 种 函数 很 难 进行 数学 优化 。 另 一 种 方式 是 使 用 两 点 
之 间距 离 的 平均 值 ， 或 男 一 种 等 价 形式 一 一 每 个 数据 点 与 均值 之 间 的 平均 距离 ， 也 就 是 
方差 ， 事实 证 明 这 种 方式 更 容易 进行 优化 。( 生 活 本 已 艰难 ， 幸 好 统计 学 家 已 经 找到 了 捷 
径 。) 采用 数学 方式 ， 这 个 问题 就 变 成 了 使 新 特征 空间 中 数据 点 的 方差 最 大 化 。 
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线性 代数 公式 阅读 技巧 

要 想 理解 线性 代数 公式 ， 必 须 搞 清楚 哪些 量 是 标量 ， 哪 些 量 是 向 量 ， 以 及 向 
量 的 方向 一 一 垂直 的 还 是 水 平 的 。 要 知道 矩阵 的 维度 ， 因 为 它们 经 常会 告诉 
你 需要 的 向 量 是 在 行 中 还 是 在 列 中 。 在 一 张 纸 上 画 出 表示 甜 阵 或 向 量 的 长 方 
形 ， 确 保 它们 的 形状 是 匹配 的 。 就 像 注意 测量 单位 (比如 用 英里 表示 距离 ， 
用 英里 每 小 时 表示 速度 ) 可 以 让 你 深刻 理解 代数 问题 一 样 ， 在 线性 代数 中 ， 
你 要 注意 的 就 是 维度 。 


6.2 ”数学 推导 

和 前 面 一 样 ， 今 处 表示 n x d 的 数据 和 矩阵， 其 中 是 数据 点 的 数量 ，4 是 特征 的 数量 。 令 x 
是 表示 单个 数据 点 的 列 向 量 (所 以 x 是 外 中 一 行 的 转 置 )。 今 v 是 表示 新 特征 的 向 量 ， 即 
要 找 出 的 主 成 分 。 







































































矩阵 的 奇异 值 分 解 
任意 长 方形 算 阵 都 可 以 分 解 为 3 个 具有 特殊 形状 和 性 质 的 矩阵 : 
X= USV" 


HP Ud VASEZxoEM (Bp UU-I, VV-I), EAX—^&A- X 3r RÁAR MIS AIR, y 
FAL TV RE, RAX, BRK An AA, ned, N) USE AX nxd, Efe 
VV AME dxd, CRAXWGK A22 7, LIFE A AAD Eo LED A. ) 











6.2.1 线性 投影 
下 面 我 们 一 步 一 步 地 进行 PCA 推导 。 图 6-2 演示 了 整个 过 程 。 
































6-2: PCA 示意 图 : (a) 特征 空间 中 的 初始 数据 ，(b) 数据 中 心 化 ，(c) 将 数据 向 量 x 投影 到 另 一 个 
(38 v.E; (d) 投影 坐标 方差 最 大 的 方向 (等 于 XX 的 主 特征 向 量 ) 
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PCA 使 用 线性 投影 将 数据 转换 到 新 特征 空间 。 图 6-2c 演示 了 线性 投影 。 当 将 x 投影 到 
上 时 ， 投 影 的 长 度 是 这 两 个 向 量 的 内 积 的 一 个 比例 ， 即 通过 v 的 范 数 (向量 与 它 本 身 的 内 
R) 进行 了 归 一 人 化。 然后， 限制 vy 具有 单位 范 数 。 这 样 ， 唯 一 重要 的 部 分 就 是 分 子 了 ， 我 
NIREA v ( 见 公式 6-1)。 


公式 6-1 投影 坐标 




















T 
Z—-XyVy 


注意 ， 尽 管 x 和 vv 是 列 向 量 ,， 但 z 是 个 标量 。 因 为 有 很 多 数据 点 ， 所 以 我 们 可 以 构造 一 个 
向 量 z， 表示 所 有 数据 点 在 新 特征 v 上 的 投影 坐标 ( 见 公式 6-2)。 这 里 , X ERNARI 
数据 和 矩阵， 其 中 每 行 都 是 一 个 数据 点 。 最 终结 果 z 是 个 列 向 量 。 


公式 6-2 ”投影 坐标 向 量 














z=Xv 


6.2.20 方差 和 经 验方 差 
下 一 步 是 计算 投影 的 方差 。 方 差 是 与 均值 之 间 的 距离 的 平方 的 期 望 值 ( 见 公式 6-3). 
公式 6-3 随机 变量 2Z 的 方差 

Var(Z) = E[Z - EZ 
还 有 一 个 小 问题 ， 在 我 们 的 问题 表示 中 ， 从 来 没有 涉及 过 均值 E(Z)， 它 是 个 自由 变量 。 这 
个 问题 的 一 种 解决 方法 是 ， 从 所 有 数据 点 中 减 去 均值 ， 从 而 将 其 从 公式 中 除 掉 。 这 样 ， 结 
果 数 据 集 的 均值 就 是 0， 这 意味 着 方差 就 是 Z 的 期 望 值 。 从 几何 意义 上 说 ， 减 去 均值 的 效 
果 就 是 将 数据 中 心 化 〈 见 图 6-2a 和 图 6-2b ) 。 


一 个 与 方差 关系 非常 紧密 的 量 是 两 个 随机 变量 Z, 和 Zz, 之 间 的 协 方差 ( 见 公式 6-4) ， 可 以 
将 其 视 为 方差 ( 单 随机 变量 ) 概念 在 两 个 随机 变量 上 的 推广 。 
公式 6-4 ”两 个 随机 变量 Z f Z, 之 间 的 协 方差 

Cov(Z,Z) = EL(Z, - EZ); - BZ) 
当 随机 变量 的 均值 为 0 时 ， 它 们 的 协 方差 与 线性 相关 度 BIZ, Z,) 一 致 。 随 后 会 讨论 这 个 概念 。 
像 方差 和 期 望 这 样 的 统计 量 是 定义 在 数据 分 布 之 上 的 。 实 际 上 ， 我 们 不 可 能 有 真正 的 数据 


分 布 ， 只 有 一 系列 观测 到 的 数据 点 ，zi, …, mm。 这 称 为 经 验 分 布 ， 它 可 以 给 出 方差 的 经 验 佑 
计 ( 见 公式 6-5). 



























































公式 6-5 Z 的 经 验方 差 ， 基于 观测 z 计算 


1a, 
V ar, Z)=— FA 
spe ) n 1 2, i 
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结合 公式 6-1 中 z, 的 定义 ， 可 以 得 到 公式 6-6 中 投影 数据 方差 最 大 化 的 数学 表示 。 (RITE 
弃 了 经 验方 差 定义 中 的 分 母 n-1， 因 为 它 是 个 全 局 常量 ， 对 在 何 处 达到 最 大 值 没 有 影响 。) 


公式 6-6 dX Host 

















n 
max, Zaw, 其 中 w'w=l 
i=l 


这 里 的 限制 条 件 强制 w 与 自己 的 内 积 为 1， 这 等 价 于 w 必须 具有 单位 长 度 。 这 样 做 的 原因 
是 我 们 只 关心 w 的 方向 ， 不 关心 它 的 大 小 。w 的 大 小 是 个 不 必要 的 自由 度 ， 所 以 我 们 可 以 
将 它 设 定 为 任意 值 ， 从 而 除去 它 的 影响 。 


6.2.4 ERS: 矩阵 -向 量 表示 形式 

下 面 的 步骤 有 点 难度 。 公 式 6-6 中 的 平方 和 项 太 策 重 了 ， 表 示 成 矩阵 - 向 量 的 形式 会 更 简 
洁 。 可 以 这 样 做 吗 ? 答案 是 肯定 的 。 关 键 就 在 于 平方 和 恒等式 ， 多 个 项 的 平方 和 等 于 由 这 
些 项 组 成 的 向 量 的 范 数 的 平方 ， 也 就 是 这 个 向 量 与 它 自己 的 内 积 。 有 了 这 个 恒等式 ， 就 可 
以 将 公式 6-6 重新 表示 为 矩阵 - 向 量 形式 ， 如 公式 6-7 所 示 。 

公式 6-7 ERA ARAL, EE- 向 量 形 式 


T 4 T. 
max,w w, Hp ww= 1 























这 种 PCA 表示 形式 更 加 清楚 地 呈现 出 了 我 们 的 目标 : 找到 一 个 能 使 输出 向 量 的 范 数 最 大 
化 的 输入 方向 。 是 不 是 听 起 来 很 熟悉 ? 答案 就 在 于 矩阵 和 的 奇异 值 分 解 (SVD)。 结 果 就 
是 ， 最 优 的 w 就 是 站 的 主要 左 奇异 向 量 ， 也 就 是 科 半 的 主 特征 向 量 。 投 影 数据 就 称 为 原 
始 数 据 的 主 成 分 。 


6.2.5 ” 主 成 分 的 通用 解 
这 个 过 程 是 可 重复 的 。 一 旦 找到 了 第 一 个 主 成 分 ， 就 可 以 重新 运行 公式 6-7， 只 是 要 加 上 
一 个 附加 条 件 ， 即 新 向 量 与 前 面 找到 的 向 量 是 正 交 的 ( 见 公式 6-8). 
































公式 6-8 第 ecl 个 主 成 分 的 目标 函数 


T T. T. T. 
max,w w, EH ww=1 H ww =" =ww,=0 





AXE X WSS +1 cae Re, FRR AE RAH. A, Bk SE ROX BT 
大 个 左 奇 异 向 量 。 








6.2.6 ”特征 转换 

一 旦 找到 了 主 成 分 ， 就 可 以 使 用 线性 投影 对 特征 进行 转换 。 令 和 = UV 是 外 的 奇异 值 分 
解 ， 且 到 是 列 中 包含 前 大 个 左 奇异 向 量 的 和 矩阵。 天 的 维度 是 xd， 其 中 以 是 初始 特征 的 
Bem, V, 的 维度 是 dxk。 除 了 像 公 式 6-2 中 那样 在 单 向 量 上 进行 投影 ， 还 可 以 使 用 投影 
阵 在 多 个 向 量 上 同时 进行 投影 ( 见 公式 6-9). 


公式 6-9 PCA 投影 矩阵 























W-V, 
投影 坐标 矩阵 很 容易 计算 ， 而 且 可 以 通过 奇异 向 量 披 此 正 交 这 一 性 质 进一步 简化 〈 见 公 
式 6-10), 
公式 6-10 ”简单 PCA 转换 

Z-XW - XV, - USV'V,= U.S, 











投影 值 就 是 前 上 个 右 奇 异 向 量 乘 以 前 大 个 奇异 值 。 因 此 ，PCA 的 一 整套 解 、 成 分 和 投影 都 
可 以 方便 地 通过 X 的 奇异 值 分 解 得 出 。 


6.2.7 ”PCA 实现 


在 很 多 PCA 推导 中 ,首先 要 对 数据 进行 中 心 化 ， 然 后 进行 协 方差 矩阵 的 特征 值 分 解 。 但 
PCA 最 容易 的 实现 方法 是 对 中 心 化 后 的 数据 和 矩阵 进行 奇异 值 分 解 。 








PCA 实现 步骤 
(1) 数据 矩阵 中 心 化 : 
C-X-1y 


其 中 工 是 个 全 1 列 向 量 ，A 是 由 着 中 每 行 的 平均 值 组 成 的 列 向 量 。 
(2) 计算 SVD: 
C= UEV 
(3) 找 出 主 成 分 。 前 天 个 主 成 分 是 斑 的 前 无 列 ， 也 就 是 对 应 于 天 个 最 大 奇异 值 的 右 奇 异 
向 量 。 
(4) 转换 数据 。 转 换 后 的 数据 就 是 了 芝 的 前 大 列 。( 如 果 需 要 白化， 就 用 奇异 值 的 倒数 乘 
以 向 量 。 这 要 求 选择 的 奇异 值 不 是 0。 参 见 6.4 节 。) 
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6.3 PCA 实战 


让 我 们 通过 在 图 像 数据 上 应 用 PCA， 更 好 地 理解 一 下 PCA。MMNIST 数据 集中 包含 了 从 0 
到 9 这 几 个 数字 的 手写 体 的 图 像 ， 初 始 图 像 是 28 像素 x 28 像素 。scikit-learn 中 有 个 分 辨 
率 更 低 的 图 像 子 集 ， 每 张 图 像 被 下 采样 为 8 像素 x 8 像素。scikit-learn 中 的 初始 数据 有 64 
个 维度 。 在 例 6-1 中 ， 我 们 要 使 用 PCA ， 并 使 用 前 3 个 主 成 分 对 数据 集 进行 可 视 化 。 


例 6-1  scikit-learn 数字 数据 集 (MNIST 数据 集 的 一 个 子 集 ) 的 主 成 分 分 析 
>>> from sklearn import datasets 
>>> from sklearn.decomposition import PCA 


# RABE 
>>> digits data = datasets.load digits() 
>>> n = len(digits data.images) 
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# 每 张 图 像 被 表示 为 一 个 8 x 8 数组 。 将 数组 局 平 化 ， 作 为 PCA 的 输入 
>>> image data = digits data.images.reshape((n, -1)) 

>>> image data.shape 

(1797, 64) 


# 数字 的 真实 值 标签 在 每 张 图 片 中 
>>> labels = digits data.target 
>>> labels 

array([0, 1, 2, ..., 8, 9, 8]) 


# 为 这 个 数据 集 拟 合 一 个 PCA 转 换 器 

# 自动 选择 主 成 分 的 数目 ， 使 主 成 分 能 解释 至 少 89% 原 来 的 方差 

>>> pca transformer = PCA(n components-0.8) 

>>> pca images = pca transformer.fit transform(image data) 

>>> pca transformer.explained variance ratio _ 

array([ 0.14890594, ©.13618771, 0.11794594, 0.08409979, 20.05782415, 
0.0491691 , 0.04315987, 0.03661373, 0.03353248, 0.03078806, 
0.02372341, 0.02272697, 0©.01821863]) 

>>> pca transformer.explained variance ratio [:3].sum() 

0.40303958587675121 























# 结果 可 视 化 
>>> import matplotlib.pyplot as plt 
>>> from mpl toolkits.mplot3d import Axes3D 
>>> 9matplotlib notebook 
>>> fig = plt.figure() 
>>> ax = fig.add_subplot(111, projection='3d') 
>>> for i in range(100): 
ax.scatter(pca_images[i,0], pca_images[i,1], pca_images[i,2], 
marker=r'${}$'.format(labels[i]), s=64) 


>>> ax.set xlabel('Principal component 1') 
>>> ax.set ylabel('Principal component 2') 
>>> ax.set zlabel('Principal component 3') 

















6-3 中 给 出 了 前 100 个 投影 图 像 的 3D 绘图 ， 其 中 的 标记 对 应 于 
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像 标 签 。 前 3 个 主 成 











分 解释 了 数据 集中 大 约 40% 的 总 方差 ， 这 个 结果 绝对 算 不 上 很 好 ， 但 它 可 以 让 我 们 在 低 维 
度 上 很 方便 地 进行 可 视 化 。 可 以 看 到 ，PCA 可 以 将 相似 的 数字 紧密 地 组 织 在 一 起 。0 和 6 
位 于 同一 区 ，1 和 7、3 和 9 也 是 同样 的 情况 。 空 间 被 大 致 划分 为 0、4、6 在 一 侧 ， 其 余数 


字 在 另 一 侧 。 
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标记 对 应 于 图 像 标 签 





图 6-3: MNIST 数据 子 集 的 PCA 投影 
因为 数字 之 间 还 有 相当 数量 的 重合 ， 所 以 在 投影 空间 中 使 用 线性 分 类 器 将 数字 区 分 开 来 还 
是 很 困难 的 。 因 此 ， 如 果 我 们 的 任务 是 区 分 手写 数字 ， 而 且 选 择 的 模型 是 线性 分 类 器 的 
话 ， 那 么 只 使 用 前 3 个 主 成 分 作为 特征 是 不 够 的 。 尽 管 如 此 ， 看 看 一 个 64 维 的 数据 集 是 
如 何 被 转换 到 三 维 空间 中 还 是 很 有 趣 的 。 


6.4 ”白化 与 ZCA 

由 于 目标 函数 的 正 交 限制 ，PCA 转换 有 一 个 非常 好 的 副作用 : 转换 后 的 特征 都 是 不 相关 
的 。 换 名 话说 ， 每 对 特征 向 量 之 间 的 内 积 都 是 0。 使 用 奇异 向 量 的 正 交 性 质 可 以 很 容易 地 
进行 证 明 : 




















ZZ-zU/UZ,-zj 
结果 是 个 对 角 阵 ， 对 角 线 上 是 奇异 值 的 平方 ， 表 示 每 个 特征 向 量 与 自己 的 相关 度 ， 也 称 为 
范 数 。 
有 时 候 ， 还 应 该 通过 归 一 化 把 特征 的 长 度 变 为 1。 在 信号 处 理 领 域 ， 这 种 操作 称 为 白化 。 
这 样 做 可 以 得 到 一 组 特征 ， 彼 此 之 间 的 相关 度 为 0， 与 自身 的 相关 度 为 1。 数 学 上 ， 将 
PCA 转换 乘 以 奇异 值 的 倒数 ， 就 可 以 实现 白化 〈 见 公式 6-11). 
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公式 6-11 PCA+ Bit 
Write = VS 
Zu 7 XVZ; = UZV Va, = U, 
白化 与 数据 降 维 是 彼此 独立 的 ， 可 以 分 别 进行 。 例 如 ， 零 相位 成 分 分 析 (zero-phase 
component analysi, ZCA) (Bell and Sejnowski, io 是 一 种 与 PCA 联系 非常 紧密 的 白化 
转换 ， 但 它 不 会 减少 特征 的 数量 。ZCA 白化 使 用 未 削减 的 整个 主 成 分 集合 ， 还 要 再 乘 上 一 
个 V. ( 见 公式 6-12), 
BH 6-12 ZCA Att 
Wea = VXV 
Zza = XVX V -UXVVX'-U 
简单 的 PCA 投影 ( 见 公式 6-10) 可 以 在 新 特征 空间 中 以 主 成 分 为 基 生 成 坐标 。 这 些 坐 标 
只 表示 投影 向 量 的 长 度 ， 不 表示 方向 。 乘 以 主 成 分 之 后 ， 才 能 得 到 长 度 和 方向 。 另 一 个 合 
时 解 各 是 ， 这 次 相 乘 可 以 将 坐标 旋转 回 初始 特征 宰 SH (VEDERE, TE 2S FEB 


以 对 输入 进行 没有 拉 伸 和 压缩 的 旋转 。) 所 以 ，ZCA 生成 的 白化 数据 与 初始 数据 是 最 接近 
的 (用 欧 氏 距离 衡量 )。 


6.5 ”PCA 的 局 限 性 与 注意 事项 


在 使 用 PCA 进行 数据 降 维 时 ， 必 须 确定 要 使 用 的 主 成 分 的 数目 (有)。 和 所 有 超 参 数 一 样 ， 这 
个 数目 可 以 根据 最 终 模 型 的 质量 来 进行 优化 ， 但 也 有 一 些 不 需要 昂贵 计算 成 本 的 启发 式 方法 。 


选择 的 一 种 可 行 方 法 是 要 求 主 成 分 能 解释 一 定 比例 的 总 方差 。 (scikit-learn 的 PCA 包 中 有 
这 个 选项 。) 在 个 主 成 分 上 的 投影 的 方差 为 : 
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这 个 方差 就 是 站 第 大 奇异 值 的 平方 。 奇 异 值 的 排序 列表 称 为 矩阵 的 谱 (spectrum)。 因 
此 ， 要 确定 使 用 多 少 主 成 分 ， 可 以 对 数据 矩阵 做 一 个 简单 的 谱 分 析 ， 并 选 定 能 解释 足够 方 
ZEW 








根据 解释 的 方差 选择 k 
要 保留 足够 的 主 成 分 来 解释 数据 中 80% 的 总 方差 ， 可 以 这 样 选择 k: 














男 一 种 选择 的 方法 涉及 数据 集 的 本 征 维 数 。 这 是 个 非常 模糊 的 概念 ， 但 也 可 以 通过 矩阵 
的 谱 来 确定 。 简 单 地 说 ， 如 果 谱 中 包含 一 些 非常 大 的 奇异 值 和 一 些 非常 小 的 奇异 值 ， 我 们 
就 可 以 只 保留 那些 非常 大 的 奇异 值 ， 丢 弃 其 余 奇 异 值 。 有 时 候 ， 谱 中 其 余 的 奇异 值 不 是 非 
常 小 ， 但 头 部 和 尾部 的 值 之 间 有 比较 大 的 缺口 ， 这 也 是 一 个 非常 合理 的 界限 。 这 种 方法 需 
要 对 谱 进 行人 工 观察 ， 因 此 不 能 作为 自动 流程 的 一 部 分 。 


对 PCA 的 一 种 主要 诉 病 是 转换 过 程 太 复杂 了 ， 而 且 由 此 得 到 的 结果 也 难以 解释 。 主 成 分 
和 投影 向 量 是 实数 值 ， 可 能 是 正 的 ， 也 可 能 是 负 的 。 主 成 分 实质 上 是 (中 心 化 后 的 ) 行 的 
线性 组 合 ， 投 影 值 则 是 列 的 线性 组 合 。 例 如 ， 在 一 个 股票 收益 应 用 中 ， 每 个 因子 都 是 股票 
收益 时 间 片 的 一 个 线性 组 合 。 其 中 的 含义 呢 ? 很 难 用 人 类 可 以 理解 的 理由 来 解释 这 些 学 习 
得 出 的 因子 。 因 此 ， 分 析 师 很 难 相信 这 些 结果 。 如 果 不 能 解释 为 什么 应 该 把 成 千 上 万 其 他 
人 的 钱 投 到 一 支 特定 的 股票 上 ， 你 可 能 就 不 会 使 用 这 个 模型 。 


PCA 的 计算 成 本 是 非常 昂贵 的 ， 它 依赖 于 SVD， 而 SVD 就 是 个 对 计算 能 力 要 求 非常 高 
的 过 程 。 要 计算 出 一 个 矩阵 的 完整 SVD ， 需 要 O(nd^ + d^) 次 操作 (Golub and Van Loan, 
2012), 假设 n 三 dg， 即 数据 点 数量 大 于 特征 数量 。 尽 管 我 们 只 需要 大 个 主 成 分 ， 计 算 截 
断后 的 SVD (k 个 最 大 奇异 值 及 其 对 应 的 奇异 向 量 ) 仍然 需要 O(n dy) = O(n 有 D 次 操作 。 
当 有 大 量 数据 点 和 特征 时 ， 计 算 成 本 令 人 望而却步 。 


在 流 式 数据 、 批 量 更 新 或 完整 数据 的 抽样 中 ， 是 难以 执行 PCA 操作 的 。SVD 的 流 式 计算 、 
SVD 更 新 ， 以 及 根据 子 样本 计算 SVD， 都 是 非常 困难 的 研究 问题 。 算 法 是 存在 的 ， 但 代 
价 是 降低 了 准确 率 。 其 中 暗含 的 一 个 意思 就 是 ， 当 把 测试 数据 投影 到 训练 过 程 中 找 出 的 主 
成 分 时 ， 我 们 只 能 期 待 较 低 的 表示 准确 率 。 随 着 数据 分 布 的 改变 ， 我 们 必须 重新 计算 当前 
数据 集 的 主 成 分 。 


最 后 ， 最 好 不 要 对 原始 计数 (单词 计数 、 音 乐 播放 计数 、 电 影 观看 计数 等 ) 使 用 PCA。 原 
因 在 于 这 样 的 计数 通常 包含 巨大 的 异常 值 。( 很 有 可 能 一 个 狂热 的 影迷 观看 了 《指环 王 》 
314 582 vk, KATE BORE LAH.) 正如 我 们 所 知 ，PCA 找寻 的 是 特征 之 间 的 线性 相 
关 度 。 相 关 度 和 方差 统计 量 对 大 的 异常 值 非常 敏感 ， 一 个 巨大 的 异常 值 就 可 以 显著 改变 这 
些 统 计量 。 所 以 ， 先 清理 数据 中 的 异常 值 (3.2.2 节 ) 是 非常 好 的 一 种 做 法 ， 也 可 以 使 用 像 
tf-idf (第 4 章 ) 或 对 数 变换 (2.3 节 ) 这 样 的 缩放 转换 。 


6.6 ”用例 


通过 找 出 特征 之 间 的 线性 相关 模式 ，PCA 可 以 减少 特征 空间 的 维度 。 因 为 要 用 到 SVD， 
所 以 对 于 数量 超过 几 千 的 特征 ，PCA 的 计算 成 本 是 非常 昂贵 的 。 但 对 于 数量 较 少 的 实数 值 
特征 ， 它 还 是 非常 值得 尝试 的 。 


PCA 转换 丢弃 了 数据 中 的 一 些 信息 ， 因 此 ， 下 游 模型 的 训练 成 本 更 低 ， 但 精确 度 也 下 降 
了 。 在 MNIST 数据 集 上 ， 有 人 发 现 使 用 通过 PCA 得 到 的 降 维 数据 会 导致 分 类 模型 的 精确 
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度 降 低 。 在 这 种 情况 下 ， 使 用 PCA 的 效果 是 喜忧参半 的 。 


PCA 最 精彩 的 应 用 之 一 是 在 时 间 序 列 中 进行 异常 检测 。Lakhina 等 人 使 用 PCA 在 互联 网 流量 
中 检测 和 诊断 异常 。 他 们 重点 关注 流量 异常 ， 即 什么 时 候 从 一 个 网 络 区 域 到 另 一 个 网 络 区 域 
的 流量 会 发 生 剧烈 的 变化 。 这 些 突变 可 能 就 是 网 络 错误 配置 或 拒绝 服务 攻击 的 信号 ， 不 管 是 哪 
一 种 情况 ， 知 道 这 种 变化 在 什么 时 候 和 在 哪里 发 生 对 于 互联 网 管理 员 来 说 都 是 非常 有 价值 的 。 


因为 互联 网 上 的 流量 太 多 了 ， 所 以 小 型 区 域内 的 白 立 突变 很 难 探测 ， 但 多 数 流 量 都 是 在 一 
个 相对 较 小 的 主干 链接 集合 中 处 理 的 。 关 键 在 于 ， 流 量 异常 会 同时 影响 多 个 链接 (因为 数 
据 包 要 经 过 多 个 节点 才能 到 达 它 们 的 目标 )。 我 们 可 以 将 每 个 链接 作为 一 个 特征 ， 并 将 每 
个 时 间 段 的 流量 作为 测量 值 ， 那 么 一 个 数据 点 就 是 在 一 个 时 间 片 内 通过 网 络 上 所 有 链接 的 
流量 的 测量 。 这 种 矩阵 的 主 成 分 可 以 表明 网 络 上 的 整体 流量 趋势 ， 余 下 的 成 分 表示 还 有 残 
差 信号 ， 其 中 就 包括 异常 。 

PCA 还 经 常 应 用 在 金融 建 模 中 。 在 这 些 用 例 中 ，PCA 被 作为 一 种 因子 分 析 。 因 子 分 析 是 一 
个 统计 方法 族 ， 它 们 致力 于 使 用 少量 六 在 的 因子 来 描述 数据 中 可 见 的 变异 。 在 因子 分 析 应 
用 中 ,分 析 目 标 是 找到 可 解释 的 成 分 ， 不 是 对 数据 进行 转换 。 

像 股票 回报 这 样 的 金融 数量 指标 通常 是 彼此 相关 的 。 一 些 股 票 经 常 同 时 上 涨 或 下 跌 (E+ 
关 )， 也 可 能 沿 着 相反 的 方向 变化 〈 负 相关 )。 为 了 平衡 这 种 波动 并 降低 风险 ， 一 个 投资 组 
合 需要 一 组 分 散 的 、 彼 此 不 相关 的 股票 。( 如 果 篮 子 可 能 沉 到 水 底 ， 就 不 要 把 所 有 鸡蛋 放 
企 一 个 篮子 里 。) 找 出 强 相关 模式 有 助 于 确定 投资 策略 。 


股票 相关 模式 可 以 是 行业 范围 内 的 。 例 如 ， 科 技 股 的 价格 会 同时 上 升 和 下 跌 ， 而 石油 股 的 
价格 上 逢 时， 航空 股 会 下 跌 。 但 行业 可 能 不 是 解释 这 个 结果 的 最 好 方式 ， 分 析 师 们 还 会 在 
可 知 的 统计 量 中 寻求 意料 之 外 的 相关 性 。 特 别 地 ， 为 了 找 出 通常 同时 变化 的 股票 ， 统 计 因 
子 模型 (Connor, 1995) 在 单 支 股票 回报 的 时 间 序 列 矩 阵 上 运行 PCA。 在 这 个 用 例 中 ， 最 
终 目标 是 找到 主 成 分 本 身 ， 而 不 是 转换 数据 。 


当 从 图 像 中 学 习 时 ， 在 预 处 理 阶段 可 以 使 用 ZCA。 在 自然 图 像 中 ， 邻 接 像 素 通常 具有 相似 
的 颜色 ，ZCA 白化 可 以 除去 这 种 相关 性 ， 从 而 使 随后 的 建 模 工 作 可 以 集中 在 更 有 趣 的 图 像 
结构 上 。Krizhevsky (2009) 的 论文 “Learning Multiple Layers of Features from Images” 中 给 
出 了 很 多 精彩 的 例子 ， 说 明了 ZCA 白化 在 自然 图 像 处 理 中 的 作用 。 


很 多 深度 学 习 模 型 使 用 PCA 或 ZCA 作为 预 处 理 的 一 个 步骤 ， 但 它 并 不 总 是 必要 的 。 
在 “Factored 3-Way Restricted Boltzmann Machines for Modeling Natural Images” 一 文中 ， 
Ranzato 等 人 认为 “白化 并 不 是 必要 的 步 又 ， 但 可 以 加 快 算法 收 你 ”。 在 “An Analysis of 
Single-Layer Networks in Unsupervised Feature Learning” 中 ，Coates 等 人 发 现 ZCA 白化 对 
某 些 模 型 有 帮助 ， 但 不 是 对 所 有 模型 都 有 帮助 。( 请 注意 ， 这 篇 文章 中 的 模型 是 无 监督 特 
征 学 习 模 型 ， 所 以 在 其 他 特征 工程 方法 中 可 以 使 用 一 下 ZCA。 在 机 器 学 习 流 程 中 ,方法 的 
堆 倒 和 链接 是 很 常见 的 。) 
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6.7 ”小结 


XT PCA 的 讨论 到 此 结束 。 关 于 PCA 我 们 应 该 记 住 的 主要 两 点 是 它 的 原理 〈 线 性 投影 ) 和 
目标 (最 大 化 投影 数据 的 方差 )。PCA 的 解 要 用 到 协 方差 矩阵 的 特征 值 分 解 ， 它 与 数据 矩阵 
的 SVD 联系 非常 紧密 。 还 可 以 这 样 形象 地 理解 PCA: 将 数据 挤 入 一 张 尽量 松软 的 薄饼 中 。 


PCA 是 一 种 模型 驱动 的 特征 工程 方法 。( 只 要 看 到 一 个 目标 函数 ， 就 应 该 马上 猜想 它 的 表 
后 可 能 隐藏 着 一 个 模型 。) 其 中 的 建 模 假设 是 方差 能 够 很 好 地 表示 数据 中 包含 的 信息 。 同 
样 ， 模 型 要 找 出 的 是 特征 之 间 的 线性 相关 性 。 在 若干 应 用 中 可 以 使 用 PCA 来 减少 相关 性 
或 找 出 输入 中 常见 的 因子 。 

PCA 是 一 种 广为人知 的 数据 降 维 方法 ， 但 它 也 有 自身 的 局 限 性 ， 比 如 高 昂 的 计算 成 本 和 不 
能 解释 的 结果 。 它 适合 应 用 在 预 处 理 阶段 ， 特 别 是 特征 之 间 存在 线性 相关 性 的 时 候 。 
作为 一 种 消除 线性 相关 性 的 方法 时 ，PCA 还 可 以 和 白化 方法 结合 使 用 。 它 的 “表亲 ”ZCA 
可 以 用 可 解释 的 方式 对 数据 进行 白化 ， 但 不 能 降低 数据 维度 。 
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FRERES -HERPES 





当 数 据 位 于 一 个 薄饼 状 的 线性 子 空间 时 ，PCA 是 非常 有 用 的 。 但 如 果 数 据 形成 了 一 个 更 加 
复杂 的 形状 ， 情 况 又 将 如 何 呢 ? “平面 (线性 子 空间 ) 可 以 推广 为 流 形 ( 非 线 性 子 空间 )， 
可 以 把 流 形 看 作 一 个 可 以 以 多 种 方式 伸展 和 卷 动 的 曲面 。* 


如 果 线 性 子 空间 是 一 张 平 展 的 纸 ， 那 么 非 线性 流 形 的 一 个 简单 例子 就 是 卷 起 来 的 纸 ， 它 有 
个 非 正式 的 名 称 ， 叫 作 瑞士 卷 〈 见 图 7-1)。 一 旦 卷 了 起 来 ， 二 维 平面 就 占据 了 三 维 空间 ， 
尽管 它 本 质 上 还 是 个 二 维 对 象 。 换 句 话 说 ， 它 具有 低 本 征 维 数 ， 这 个 概念 我 们 在 6.1 市 中 
已 经 接触 过 了 。 如 果 能 够 以 某 种 方式 展开 瑞士 卷 ， 就 可 以 恢复 二 维 平面 。 这 就 是 非 线性 数 
据 降 维 的 目标 ， 它 假定 流 形 要 比 它 所 在 的 全 维度 空间 简单 ， 然 后 试图 将 其 展开 。 
流 形 能 够 展开 的 关键 在 于 ， 即 使 一 个 大 的 流 形 看 上 去 非常 复杂 ， 但 它 的 每 个 数据 点 的 邻近 


区 域 通常 可 以 非常 好 地 近似 为 一 块 平面 。 换 句 话 说 ， 可 以 通过 多 个 小 平面 使 用 局 部 结构 组 
成 全 局 结构 。’ 非 线 性 数据 降 维 也 称 为 非 线 性 嵌入 或 流 形 学 习 。 非 线性 幅 入 可 以 非常 有 效 地 

































































注 1: 本 章 的 写作 灵感 来 自 于 和 Ted Dunning 的 一 段 对 话 ， 他 是 一 位 活跃 的 Apache 页 献 者 和 知名 作家 。 本 
章 中 的 堆 释 示例 就 是 Ted 提供 的 ， 他 还 对 本 章 的 写作 方法 提供 了 很 多 有 益 的 建议 。 如 果 有 人 想 找 个 合 































































































著者 写作 一 些 单独 的 章节 ， 那 么 Ted 就 是 你 应 该 找 的 人 。 

注 2: 在 本 章 中 ， 我 们 将 交替 使 用 “曲面 ”和 “ 流 形 ” 这 两 个 词 。 我 们 可 以 很 好 地 类 推 到 嵌入 在 三 维 空间 中 
的 二 维 流 形 ,但 超过 三 维 之 后 就 不 可 行 了 。 高 维 流 形 不 符合 我 们 对 “曲面 ”的 通常 理解 。 有 些 非 常 奇 
异 的 流 形 有 洞 ， 还 有 些 流 形 会 以 现实 世界 中 根本 不 会 存在 的 方式 环 回 到 自己 本 身 (如 M.C. Escher 的 
无 尽 瀑 布 )。 多 数 数据 模型 的 假设 是 性 质 恨 好 的 流 形 ， 而 不 是 那些 稀奇 古怪 的 流 形 。 

注 3: 这 是 数学 中 的 一 种 “实证 有 效 ” 思 想 。 例 如 ， 用 函数 的 导数 测量 每 个 点 处 的 速度 变化 。 全 局 上 ， 函 数 
可 以 是 任意 的 形式 ， 但 在 局 部 ， 它 可 以 近似 为 导数 的 线性 函数 。 如 果 知道 了 每 个 点 上 的 导数 ， 那 么 就 
可 以 使 用 微 积分 或 多 或 少 地 还 原 整 个 初始 函数 。 
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将 高 维 数据 压缩 为 低 维 数据 ， 常 用 于 二 维 空 间或 三 维 空间 中 的 可 视 化 。 























图 7-1: 瑞士 卷 ， 一 个 非 线性 流 形 


但 是 ， 尽 量 降低 特征 维度 只 是 特征 工程 目标 的 一 小 部 分 ， 它 的 根本 目标 还 是 为 当前 任务 找 
到 正确 的 特征 。 在 本 章 中 ， 正 确 的 特征 是 那些 能 表示 出 数据 的 空间 特性 的 特征 。 


聚 类 算法 通常 不 被 用 作 局 部 结构 学 习 技 术 ， 但 实际 上 它 完 全 可 以 胜任 。 彼 此 相近 (可 以 用 
一 种 特定 的 度量 方式 来 定义 “ 近 ” 的 概念 ) 的 点 属于 同一 个 复 。 给 定 一 个 聚 类 ， 数 据点 可 
以 用 它 的 禾 成 员 向 量 来 表示 。 如 果 徐 的 数量 小 于 初始 的 特征 数量 ， 那 么 相对 于 初始 表示 ， 
这 种 新 表示 就 具有 更 少 的 维度 ， 初 始 数据 就 被 压缩 进 一 个 更 低 维 度 的 空间 。 本 章 将 解释 这 
种 思想 。 

与 非 线性 岁入 技术 相 比 ， 聚 类 会 生成 更 多 特征 。 但 如 果 最 终 目 标 是 特征 工程 ， 而 不 是 可 视 
化 ， 这 就 不 是 问题 了 。 

我 们 将 通过 一 种 称 为 均值 的 常用 聚 类 算法 来 说 明 局 部 结构 学 习 的 思想 ， 这 种 方法 简单 易 
行 。 与 其 说 太 均 值 方 法 的 作用 是 非 线 性 流 形 降 维 ， 还 不 如 说 它 执行 了 非 线 性 流 形 特征 提 
取 。 使 用 正确 的 话 ， 大 均值 聚 类 可 以 成 为 特征 工程 的 一 项 神 兵 利器 。 


7.1 Kk- 均 值 聚 类 

k- 均 值 是 一 种 聚 类 算法 。 聚 类 算法 根据 数据 在 空间 中 的 分 布 方式 为 其 分 组 。 具 类 是 一 种 非 
监督 学 习 方 法 ， 它 不 需要 任何 形式 的 标签 一 一 这 种 算法 的 目的 就 是 仅 基 于 数据 本 身 的 结构 
Af a E 

聚 类 算法 依赖 于 度量 方式 ， 即 对 数据 点 之 间 相 近 程度 的 测量 。 最 常用 的 度量 方式 是 欧 氏 距 
离 ， 或 称 欧 几 里 得 度量 ， 它 来 自 于 欧 氏 几何 ， 测 量 的 是 两 点 之 间 的 直线 距离 。 这 种 度量 方 
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式 对 我 们 来 说 非常 正常 ， 因 为 这 就 是 现实 世界 中 随处 可 见 的 距离 。 





两 个 向 量 x 和 y 之 间 的 欧 氏 距离 是 x-y 的 范 数 。( 想 更 多 地 了 解 范 数 ， 参 见 2.43 
35.) 使 用 数学 语言 描述 的 话 ， 它 通常 写作 -vleo RERE x-y||。 


大 均值 会 建立 一 种 硬 聚 类 ， 也 就 是 说 每 个 数据 点 都 属于 且 只 属于 一 个 侯 。 该 算法 通过 学 习 
来 定位 竹中 心 点 ， 使 得 每 个 数据 点 和 敌 中 心 点 之 间 的 欧 氏 距离 的 总 和 最 小 。 对 于 那些 喜欢 
数学 公式 胜 过 文字 描述 的 人 ， 可 以 看 看 下 面 的 目标 函数 ， 


k 
minc co, 2, 2, |x t ul, 
BENT C, BL SIM 1 PSR, BUD dA HP PUR cds PE : 











Hu - xin, 
xeC; 


Mat 





CHE n REIS i PRERA. 


图 7-2 展示 了 在 两 种 不 同 的 、 随 机 生成 的 数据 集 上 的 撕 均 值 聚 类 。(a) 中 的 数据 是 使 用 几 种 
随机 高 斯 分 布 生成 的 ， 这 些 分 布 的 方差 相同 但 均值 不 同 。(c) 中 的 数据 则 是 完全 随机 生成 
的 。 这 些 用 于 实验 的 问题 非常 容易 解决 ,大 均值 聚 类 的 效果 非常 好 。( 聚 类 结果 对 钞 的 数目 
非常 敏感 ， 徐 数目 必须 在 算法 中 给 定 。) 























(a) 4 个 随机 生成 的 点 团 (b) 大 均值 聚 类 找 出 的 禾 


"o m 











(c) 1000 个 随机 生成 的 点 (d) 万 均值 聚 类 找 出 的 徐 

















图 7-2: 演示 聚 类 算法 如 何 划分 空间 的 人 均值 示例 
本 例 使 用 的 代码 见 例 7-1。 





fll 7-1 


一 般 
数据 
选择 





>>> 
>>> 
>>> 


>>> 


>>> 


>>> 
>>> 


生成 均值 示例 的 代码 
import numpy as np 


from sklearn.cluster import KMeans 
from sklearn.datasets import make blobs 


import matplotlib.pyplot as plt 


n data - 1000 
seed - 1 
n clusters = 4 





8 生成 符合 高 斯 随机 分 布 的 点 团 ， 并 运行 k- 均 值 算法 


>>> blobs, blob labels = make blobs(n samples-n data, n features-2, 





centers-n cente 


>>> clusters blob = KMeans(n clusters-n centers, ra 
predict(blobs) 


* 生成 完全 随机 的 数据 ， 并 运行 k- 均 值 算法 
>>> uniform = np.random.rand(n data, 2) 
>>> clusters uniform = KMeans(n clusters-n clusters 


random state-seed).fi 


# 对 结果 进行 可 视 化 的 MatpLotLib 代 码 
figure = plt.figure() 


>>> 
>>> 
>>> 
>>> 
>>> 


>>> 
>>> 
>>> 
>>> 


>>> 
>>> 
>>> 
>>> 


>>> 
>>> 


plt 
plt 
plt 
plt 


plt 
plt 
plt 
plt 


plt 
plt 
plt 
plt 


plt 
plt 


.subplot(221) 


.scatter(blobs[:, 0], blobs[:, 1], c-blob labels, cmap='gist_rainbow' ) 


.title("(a) Four randomly generated blobs", 
.axis('off') 


.subplot(222) 


.scatter(blobs[:, 0], blobs[:, 1], c=clusters_blob, cmap='gist_rainbow' ) 


.title("(b) Clusters found via K-means", fon 
.axis('off') 


.subplot(223) 

.scatter(uniform[:, 0], uniform[:, 1]) 
.title("(c) 1000 randomly generated points", 
.axis('off') 


.subplot(224) 


.scatter(uniform[:, 0], uniform[:, 1], c-clusters uniform, cmap-'gist 


rainbow' ) 
>>> plt.title("(d) Clusters found via K-means", fontsize=14) 
>>> plt.axis('off') 


7.2 ”使 用 聚 类 进行 曲面 拼接 








的 聚 类 应 用 假定 在 数据 中 可 以 找到 
区 域 ， 空 间 的 其 他 部 分 则 相对 空旷 。 

















rs, random state-seed) 
ndom state-seed).fit 


’ 


t_predict(uniform) 


fontsize=14) 


tsize=14) 


fontsize=14) 


这 个 上 ， 人 们 发 明了 聚 类 索引 来 测量 数据 分 组 的 质量 。 


自然 形成 的 徐 ， 也 就 是 说 ， 空 间 中 分 布 着 一 些 密集 
在 这 种 情况 下 ， 需 要 确定 正确 的 复数 目 ， 而 为 了 








非 线 性 
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是 ， 当 数据 分 布 得 较为 均匀 ， 就 像 图 7-2c 中 那样 的 时 候 ， 就 没有 一 个 正确 的 复数 目 了 。 
时 ， 聚 类 算法 的 作用 就 是 矢量 量化 ， 即 将 数据 划分 为 有 限 数目 的 数据 段 。 当 使 用 量化 矢 


量 而 不 是 原始 矢量 时 ， 可 以 基于 可 接受 的 近似 误差 来 选择 禾 的 数目 。 


形象 地 说 





， 这 种 磊 均 值 聚 类 的 使 用 方式 就 像 是 用 补丁 来 覆盖 数据 曲面 ， 如 图 7-3 所 示 。 如 
果 在 瑞士 卷 数据 集 上 运行 均值 聚 类 ， 这 也 就 是 我 们 能 实际 得 到 的 结果 。 





























7-3: 通过 聚 类 算法 在 瑞士 卷 上 得 到 的 概念 性 局 部 补丁 








例 7-2 使 用 scikit-learn 在 瑞士 卷 上 生成 了 一 个 带 噪声 的 数据 集 ， 对 其 使 用 大 均值 算法 进行 了 


聚 类 ， 并 使 用 Matplotlib 对 








例 7-2 ”瑞士 卷 上 的 大 均值 聚 类 
>>> from mpl toolkits.mplot3d import Axes3D 
>>> from sklearn import manifold, datasets 





# 生成 带 噪声 的 瑞士 卷 数据 集 


>>> X, color = datasets.samples generator.make swiss roll(n samples-1500) 











# 使 





>>> C 

















# 使 





>>> fig2 = plt.figure() 
>>> ax = fig2.add subplot(111, projection-'3d') 
>>> ax.scatter(X[:, 0], X[:, 1], X[:, 2], c-clusters swiss roll, cmap='Spectral') 


在 这 个 例子 中 ， 我 们 在 瑞士 卷 | 
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RRAITU.. HU BERE NOPE ID 进行 了 着 色 。 


j100 个 k- 均 值 复 对 数据 进行 近似 


lusters swiss roll = KMeans(n clusters-100, random state-1).fit predict(X) 





据 集 


1 面 上 生成 了 1500 个 随机 的 数据 点 ， 并 指定 大 均值 通过 100 


个 往来 对 数据 进行 近似 。 使 用 100 作为 禾 的 数目 ， 是 因为 它 看 上 去 足够 大 ， 完 全 可 以 覆盖 
这 么 一 个 相对 较 小 的 空间 。 结 果 ( 见 图 7-4) 看 上 去 非常 不 错 ， 矮 确实 分 布 在 局 部 ， 流 形 
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BA Fe] E BOSE a TRI. FER TY 你 做 到 了 吗 ? 

















图 7-4: 使 用 k- 均 值 通过 100 个 簇 来 近似 瑞士 卷 数 据 集 


问题 是 ， 如 果 选 择 的 值 过 小 ， 从 流 形 学 习 的 角度 来 说 ， 结 果 就 不 会 太 好 。 图 7-5 展示 了 
在 瑞士 卷 上 使 用 10 个 簇 的 天 均值 结果 。 可 以 清楚 地 看 到 ， 很 多 来 自 于 流 形 中 明显 不 同 部 
分 的 数据 被 映射 到 了 同一 个 复 中 〈 比 如 黄色 、 紫 色 、 绿 色 和 品 红色 的 徐 。 看 ， 我 们 说 过 最 
好 使 用 彩色 图 形 来 演示 的 ! )。 





























& 7-5: 瑞士 卷 上 的 10 fx (均值 聚 类 


如 果 数 据 均匀 一 致 地 分 布 在 整个 空间 中 ， 那 么 如 何 选择 正确 的 上 就 可 以 归结 为 一 个 球体 填 
充 问 题 。 在 4 维 空间 中 ， 我 们 大 致 可 以 拟 合 出 Ur" 个 半径 为 > 的 球体 。 每 个 大 均值 复 都 是 
一 个 球体 ， 球 体 半径 是 球体 中 的 点 和 中 心 点 之 间 的 最 大 误差 。 所 以 ， 如 果 可 以 容忍 每 个 数 
据点 的 最 大 近似 误差 是 7 的话 ， 那 么 簇 的 数目 就 是 OC), FEA d 是 数据 初始 特征 空间 的 
维度 。 








非 线性 特征 化 与 -均值 模型 堆 释 | 99 


355] di ze KP eM. EUR ee A, JE ZA TE PRI 
表示 更 多 数据 。 通 常 ， 很 难说 数据 在 高 维 空间 中 是 如 何 分 布 的 。 有 人 很 保守 ， 会 选择 一 个 
更 大 的 大， 但 大 也 不 能 过 大 ， 因 为 上 会 成 为 后 续 建 模 阶段 的 特征 数量 。 


7.3 用 于 分 类 问题 的 人 均值 特征 化 


当 使 用 大 均值 作为 特征 化 技术 时 ， 一 个 数据 点 可 以 通过 它 在 复 中 的 隶属 关系 进行 表示 (f 
隶属 关系 分 类 变量 的 稀 玻 one-hot 编码 ， 参 见 5.1.1 市 )， 这 将 在 下 面 进行 说 明 。 


























如 有 果 还 有 目标 变量 ， 那 么 也 可 以 将 目标 变量 中 的 信息 作为 聚 类 过 程 的 提示 。 加 入 目标 变量 
信息 的 一 种 方法 是 ， 直 接 将 目标 变量 作为 大 均值 算法 的 一 个 额外 输入 特征 。 因 为 我 们 的 目 
标 是 将 所 有 输入 维度 上 的 欧 氏 距离 的 总 和 最 小 化 ， 所 以 聚 类 过 程 除了 在 初始 特征 空间 中 以 
外 ， 也 会 在 目标 变量 值 之 间 平 衡 相似 度 。 可 以 对 目标 变量 进行 缩放 ， 来 增加 或 减少 聚 类 算 
法 对 它 的 关注 程度 。 目 标 变量 之 间 的 差距 较 大 时 ， 会 生成 更 加 注重 分 类 边界 的 簇 。 
































k- 均 值 特征 化 
聚 类 算法 可 以 分 析 数 据 的 空间 分 布 ， 因 此 ,大 均 值 特 征 化 可 以 生成 数据 的 压 
缩 空间 索引 ， 供 下 一 阶段 的 模型 使 用 。 这 就 是 模型 堆 到 的 一 个 例子 。 








例 7-3 展示 了 一 个 简单 的 天 均值 特征 生成 器 ， 它 定义 了 一 个 类 对 象 ， 可 以 拟 合 训练 数据 并 
转换 新 数据 。 


例 7-3 大 均值 特征 生成 器 
>>> import numpy as np 
>>> from sklearn.cluster import KMeans 


>>> Class KMeansFeaturizer: 
"""Transforms numeric data into k-means cluster memberships. 


This transformer runs k-means on the input data and converts each data point 
into the ID of the closest cluster. If a target variable is present, it is 
scaled and included as input to k-means in order to derive clusters that 

obey the classification boundary as well as group similar points together. 


def | init (self, k=100, target_scale=5.0, random_state=None): 
self.k = k 
self.target_scale = target_scale 
self.random_state = random_state 


def fit(self, X, y=None): 
"""Runs k-means on the input data and finds centroids. 


if y is None: 


# 没有 目标 变量 ， 就 执行 普通 k- 均 值 算法 
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km model = KMeans(n clusters-self.k, 

n init-20, 

random state-self.random state) 
km model.fit(X) 


self.km model = km model 
self.cluster centers = km model.cluster centers 
return self 

















# 有 目标 信息 ， 使 用 恰当 的 缩放 
# 并 将 其 包含 在 k- 均 值 算法 的 输入 数据 中 


data with target = np.hstack((X, y[:,np.newaxis]*self.target scale)) 























# 在 数据 和 目标 变量 上 建立 一 个 预 训练 k- 均 值 模型 
km model pretrain = KMeans(n clusters-self.k, 

n init-20, 

random state-self.random state) 
km model pretrain.fit(data with target) 











# 第 二 次 运行 k- 均 值 算法 ， 得 到 不 带 目标 变量 信息 的 初始 空间 中 的 徐 。 

# 使 用 在 预 训练 中 得 到 的 中 心 点 进行 初始 化 。 

# 执行 一 次 迭代 ， 进 行 答 分 配 和 中 心 点 重 计算 。 

km model = KMeans(n_clusters=self.k, 
init-km model pretrain.cluster centers [:,:2], 
n init-1, 
max iter-1) 





























km model.fit(X) 


self.km model - km model 
self.cluster centers = km model.cluster centers 
return self 


def transform(self, X, y=None): 
"""Outputs the closest cluster ID for each input data point. 
clusters - self.km model.predict(X) 
return clusters[:,np.newaxis] 


def fit transform(self, X, y=None): 
self.fit(X, y) 
return self.transform(X, y) 








在 例 7-4 的 聚 类 中 ， 为 了 演示 一 下 使 用 目标 信息 和 不 使 用 目标 信息 之 间 的 区 别 ， 我 们 使 用 
scikit-learn 的 make moons 国 数 生成 一 个 人 造 数据 集 ， 再 对 其 应 用 前 面 的 特征 生成 器 ， 并 绘 
Til X RJ. Voronoi 图 。 


例 7-4 使 用 目标 提示 和 不 使 用 目标 提示 的 左 均 值 特征 化 


>>> from scipy.spatial import Voronoi, voronoi plot 2d 
>>> from sklearn.datasets import make moons 
























































>>> training data, training labels = make moons(n samples-2000, noise-0.2) 
>>> kmf hint = KMeansFeaturizer(k-100, target scale-10).fit(training data, 
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ens training labels) 
>>> kmf no hint = KMeansFeaturizer(k-100, target scale-0).fit(training data, 
training labels) 


>>> def kmeans voronoi plot(X, y, cluster centers, ax): 

ud """Plots the Voronoi diagram of the k-means clusters overlaid with the 

data" "m" 
ax.scatter(X[:, 0], X[:, 1], c=y, cmap='Set1', alpha=0.2) 
vor = Voronoi(cluster centers) 
voronoi plot 2d(vor, ax=ax, show vertices-False, alpha=0.5) 


图 7-6 对 比 了 两 种 结果 。 数 据 集 中 的 两 个 月 亮 都 按照 它们 的 类 标签 进行 着 色 。 其 中 下 图 展 
示 了 不 使 用 目标 信息 训练 得 出 的 和 化， 请 注意 有 一 些 徐 跨 域 了 两 个 类 别 之 间 的 空旷 空间 。 上 
图 是 聚 类 算法 使 用 了 目标 信息 后 的 结果 ， 徐 边界 沿 着 类 别 边 界 的 对 齐 有 了 明显 的 改善 。 





带 有 目标 提示 的 万 均 值 聚 类 

















& 7-6: 使 用 目标 类 信息 的 BRA CE) 和 不 使 用 目标 类 信息 的 k- 均 值 聚 类 (T) 


我 们 测试 一 下 大 均值 特征 对 于 分 类 问题 的 有 效 性 。 在 例 7-5 中 ， 我 们 进行 了 一 次 逻辑 回归 ， 
它 的 输入 数据 通过 大 均值 得 特 征 进 行 了 增强 。 我 们 将 它 的 结果 与 如 下 分 类 方法 进行 比较 ， 
包括 使 用 径 向 基 函 数 核 的 支持 向 量 机 (RBF SVM), k- (KNN) 、 随 机 森林 (RF) 和 
梯度 提升 树 (GBT). RF 和 GBT 是 当前 使 用 非常 广泛 的 非 线 性 分 类 器 ， 性 能 一 流 。RBF 





SVM 是 非常 适合 在 欧 氏 空间 中 使 用 的 非 线性 分 类 器 。KNN 按照 上 个 最 近邻 的 平均 值 对 数 
据 进行 分 类 。 


分 类 器 的 默认 输入 数据 由 每 个 数据 点 的 二 维 坐标 组 成 ， 逻 辑 回归 中 还 使 用 了 表示 禾 隶 属 关 


系 的 特征 (图 7-7 中 标记 为 “LR with k-means”) 。 我 们 还 进行 了 仅 使 用 二 维 坐 标的 逻辑 回 
归 ， 作 为 参照 基准 (标记 为 “LR”)。 
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107-5 使 用 大 均值 徐 特 征 进行 分 类 


>>> 
>>> 
>>> 
>>> 


HHH 


>>> 
THER 
>>> 


>>> 


HHH 


>>> 


>>> 


HHH 


>>> 


>>> 


>>> 


features=1), 


>>> for model in classifiers: 


from 
from 
from 
from 


使 用 


test 


使 用 


trai 
test 


使 用 


trai 


test 





建立 
Lr_c 


CLas 


CLas 


sklearn.linear model import LogisticRegression 

sklearn.svm import SVC 

sklearn.neighbors import KNeighborsClassifier 

Sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier 


与 训练 数据 相同 的 分 布 生成 一 些 测试 数据 


data, test labels = make moons(n samples-2000, noise-0.3) 


k- 3 EUREGEAE Boss AE BE GE 
ning cluster features - kmf hint.transform(training data) 
Cluster features - kmf hint.transform(test data) 














条 特征 构造 新 的 输入 特征 
ning with cluster = scipy.sparse.hstack((training data, 
training cluster features)) 








with cluster = scipy.sparse.hstack((test data, test cluster features)) 
分 类 器 
luster = LogisticRegression(random state-seed).fit(training with cluster, 


training labels) 

sifier names - ['LR', 

"kNN', 

'RBF SVM', 

'Random Forest', 

'Boosted Trees'] 
sifiers - [LogisticRegression(random state-seed), 
KNeighborsClassifier(5), 
SVC(gamma-2, C-1), 
RandomForestClassifier(max depth-5, n estimators-10, max. 


GradientBoostingClassifier(n estimators-10, learning rate-1.0, 
max depth-5)] 


model.fit(training data, training labels) 


### 使 用 ROC 评 价 分 类 器 性 能 的 辅助 函数 
>>> def test roc(model, data, labels): 


if hasattr(model, "decision function"): 
predictions - model.decision function(data) 
else: 
predictions - model.predict proba(data)[:,1] 
fpr, tpr, _ = sklearn.metrics.roc curve(labels, predictions) 
return fpr, tpr 
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### 绘制 结果 

>>> import matplotlib.pyplot as plt 

>>> plt.figure() 

>>> fpr cluster, tpr cluster = test roc(lr cluster, test with cluster, test labels) 
>>> plt.plot(fpr cluster, tpr cluster, 'r-', label='LR with k-means') 





>>> for i, model in enumerate(classifiers): 
fpr, tpr = test roc(model, test data, test labels) 
plt.plot(fpr, tpr, label=classifier_names[i]) 


>>> plt.plot([0, 1], [0, 1], 'k--') 
>>> plt.legend() 








图 7-7 展示 了 每 种 分 类 器 在 测试 集 上 进行 评价 时 的 受 试 者 工作 特征 (ROC) 曲线 。ROC H 
线 表 示 的 是 当 改变 分 类 决策 边界 时 真 阳 性 和 假 阳性 之 间 的 权衡 。( 参 见 Zheng (2015) 以 获 
得 更 多 详细 信息 。) 一 个 好 的 分 类 器 应 该 能 快速 地 达到 很 高 的 真 阳性 率 和 很 低 的 假 阳 性 率 ， 
所 以 ， 能 快速 靠近 左上 角 的 曲线 是 极 好 的 。 
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& 7-7: 在 人 造 双 月 数据 集 上 k-means+ 逻辑 回归 与 其 他 非 线性 分 类 器 及 普通 逻辑 回归 的 ROC 曲线 
对 比 


从 图 中 可 以 看 出 ， 使 用 徐 特 征 的 逻辑 回归 比 不 使 用 徐 特 征 的 效果 要 好 得 多 。 实 际 上 ， 使 用 
了 矮 特 征 之 后 ， 线 性 分 类 器 的 效果 与 非 线 性 分 类 器 不 相 上 下 。 在 这 个 非 正 式 的 例子 中 有 一 
个 小 问题 ， 就 是 我 们 没有 为 任何 模型 进行 超 参数 调 优 。 如 果 模 型 被 充分 调 优 ， 就 可 能 出 现 
性 能 上 的 差别 。 但 这 个 例子 至 少 能 够 说 明 ， 带 有 均值 徐 特 征 的 逻辑 回归 模型 是 可 能 与 非 
线性 分 类 器 相 媲美 的 。 这 是 个 不 错 的 结果 ， 因 为 线性 分 类 器 的 训练 成 本 要 远 远 低 于 非 线性 




















分 类 器 。 较 低 的 计算 成 本 允许 我 们 在 同样 的 时 间 段 内 试验 更 多 带 有 不 同 特征 的 模型 ， 由 此 
增 大 了 得 到 更 好 模型 的 概率 。 


另 一 种 密集 特征 化 

如 果 不 使 用 one-hot 编码 的 徐 隶 属 关 系 ， 还 可 以 使 用 一 个 密集 向 量 来 表示 数据 点 ， 这 个 向 
量 由 数据 点 到 每 个 徐 中 心 点 距离 的 倒数 组 成 。 相 对 于 简单 的 二 值 化 簇 分 配 ， 这 种 方式 可 以 
保留 更 多 的 信息 ， 只 不 过 表示 方式 是 密集 的 。 这 就 是 一 种 妥协 。one-hot 编码 的 簇 隶 属 关 
系 可 以 提供 一 种 非常 轻 量 的 、 稀 玻 的 表示 ， 但 需要 一 个 比较 大 的 磊 值 来 表示 形状 复杂 的 数 
据 。 距 离 倒数 表示 法 是 密集 的 ， 对 于 建 模 的 各 个 步骤 来 说 代价 更 高 ， 但 优点 是 可 以 使 用 更 
小 的 外 。 




















稀 玻 表示 和 密集 表示 之 间 的 一 种 折 中 方案 是 ， 只 保留 忆 个 最 近 簇 的 距离 倒数 。 但 这 样 一 
来 ， 又 多 了 一 个 需要 调 优 的 超 参数 p。( 现 在 你 能 理解 为 什么 特征 工程 需要 考虑 这 么 多 细节 
TIE? ) 世间 没有 免费 的 午餐 。 


7.4 优点 、 缺 点 以 及 陷阱 


使 用 大 均值 将 空间 数据 转换 为 特征 是 模型 堆肥 的 一 个 实例 ， 其 中 一 个 模型 的 输入 是 另 一 个 
模型 的 输出 。 另 一 个 堆 三 实例 是 使 用 决策 树 类 型 模型 《随机 森林 或 梯度 提升 树 ) 的 输出 作 
为 线性 分 类 器 的 输入 。 近 年 来 ， 模 型 堆 盖 已 经 成 为 了 一 种 越 来 越 流行 的 技术 ， 因 为 训练 和 
维护 非 线 性 模型 的 成 本 非常 高 郧 。 堆 倒 的 核心 思想 是 将 非 线性 放 入 特征 中 ， 再 使 用 一 种 非 
常 简单 的 、 通 常 是 线性 的 模型 作为 最 后 一 层 。 特 征 生成 器 可 以 在 线 下 训练 ， 这 意味 着 我 们 
可 以 使 用 昂贵 的 、 需 要 更 多 计算 能 力 和 内 存 的 模型 来 生成 有 用 的 特征 。 位 于 顶层 的 简单 模 
型 可 以 快速 适应 在 线 数据 中 快速 的 分 布 变化 。 这 是 一 种 精确 度 和 速度 之 间 的 权衡 ， 这 种 策 
略 通常 使 用 在 像 定向 广告 这 样 需要 快速 适应 数据 分 布 变化 的 应 用 中 。 

















模型 堆 释 的 核心 思想 

先 使 用 复杂 的 基础 层 (通常 带 有 昂贵 的 模型 ) 生 成 良好 的 (通常 是 非 线 性 
的 ) 特征 ， 再 与 简单 快速 的 顶层 模型 组 合 起 来 。 这 样 通常 能 实现 模型 准确 率 
和 速度 之 间 的 正确 平衡 。 









































与 使 用 非 线性 分 类 器 相 比 ， 大 均值 与 逻辑 回归 的 堆 登 模型 更 容易 训练 和 存储 。 表 7-1 详细 
列 出 了 一 些 机 器 学 习 模型 在 计算 能 力 和 内 存 方面 的 训练 和 预测 复杂 度 。 表示 数据 点 的 数 
量 ，4 表示 (初始) 特征 的 数量 。 














非 线 性 特征 化 与 -均值 模型 堆 释 | 105 





表 7-1: 机 器 学 习 模 型 的 复杂 度 








模 m 时 间 = B 
大 均值 训练 O(nkdy O(kd) 

大 均值 预测 O(kd) O(kd) 
LR+ SÉ REGEUIIZE O(n(d+k)) O(d+k) 
LR+ PREFERI O(d--k) O(d--k) 
RBF SVM 训练 Ord) O(m) 
RBF SVM 预测 O(sd) O(sd) 
GBT 训练 O(nd 2"t) O(nd+2"t) 
GBT 预测 OQ"r) OQ"1) 
kNN 训练 O(1) O(nd) 
KNN 预测 O(nd--k log n) O(nd) 


a 流 式 大 均值 可 以 在 O(nd(log k+ log log n) 时 间 内 完成 ， 对 于 很 大 的 上， 这 个 速度 要 比 O(nkd) 快 很 多 。 


对 于 撕 均值 算法 ， 训 练 时 间 为 O(nkd) 是 因为 每 次 迭代 都 要 计算 每 个 数据 点 和 每 个 中 心 点 
(k) 之 间 的 4 维 距离 。 我 们 乐观 地 假定 迭代 次 数 不 是 n 的 函数 ， 尽 管 这 不 是 在 所 有 情况 下 
均 成 立 。 在 预测 时 ， 需 要 计算 新 数据 点 和 个 中 心 点 之 间 的 距离 ， 所 以 是 O(Kd)。 存 储 空 
间 的 要 求 是 O(kqd)， 用 来 保存 个 中 心 点 的 坐标 。 


逻辑 回归 的 训练 和 预测 对 于 数据 点 数量 和 特征 维度 都 是 线性 的 。RBF SVM 的 训练 成 本 很 
高 ， 因 为 需要 对 输入 数据 的 每 对 数据 点 计算 核算 阵 。 与 训练 过 程 相 比 ，RBF SVM 的 预测 
成 本 很 低 ， 它 对 于 支持 向 量 的 数量 s 和 特征 维度 d 是 线性 的 。GBT 的 训练 和 预测 与 数据 量 
和 模型 大 小 呈 线 性 关系 (1 棵 树 ， 每 棵 树 最 多 2” 个 叶子 节点 ， 其 中 m 是 树 的 最 大 深度 )。 
KNN 的 简单 实现 根本 不 需要 训练 时 间 ， 因 为 训练 数据 本 身 就 是 实质 上 的 模型 。 由 此 造成 的 
代价 体现 在 预测 时 间 上 ， 预 测 时 的 输入 必须 使 用 所 有 初始 训练 数据 进行 评价 ， 还 需要 部 分 
排序 以 找 出 个 最 近邻 。 

总 的 来 说 ,Kk 均值 +LR 是 唯一 一 个 对 于 训练 数据 的 规模 (O(na)) 和 模型 大 小 (O(kd)) 在 
训练 时 间 和 预测 时 间 上 都 是 线性 的 组 合 。 它 的 复杂 度 与 GBT 最 为 相似 ，GBT 的 成 本 与 数 
据点 数量 、 特 征 维度 和 模型 大 小 (O(2”D)) 呈 线 性 关系 。 但 很 难说 是 大 均值 +LR 还 是 GBT 
能 得 到 更 小 巧 的 模型 ， 这 取决 于 数据 的 空间 性 质 。 












































潜在 的 数据 泄露 
那些 还 记得 我 们 对 数据 泄露 ( 见 5.2.2 节 中 的 “防止 数据 泄露 ”部 分 ) 的 担 
DATA BESS Ta]: 在 大 均值 特征 化 阶段 引入 目标 变量 难道 不 会 导致 数据 泄露 
吗 ? 答案 是 “会 的 "， 但 不 像 分 箱 计数 中 那么 严重 。 如 果 我 们 使 用 同样 的 数据 
集 来 学 习 徐 和 建立 分 类 模型 ,那么 关于 目标 的 信息 就 会 泄露 到 输入 变量 中 。 造 
成 的 结果 是 ， 在 训练 数据 上 的 准确 度 评价 可 能 会 过 于 乐观 ， 但 是 ， 在 没有 用 
于 模型 训练 的 验证 集 或 测试 集 上 进行 评价 时 ， 这 种 偏差 就 会 被 消除 掉 。 而 且 ， 
这 种 泄露 不 会 像 分 箱 计数 统计 量 ( 见 5.2.2 75) 中 那么 精 糕 ， 因 为 聚 类 算法 的 
有 损 压 缩 会 抽象 掉 一 些 目 标 信息 。 如 果 需 要 特别 防止 数据 泄露 ， 可 以 分 割 出 一 
个 单独 的 数据 集 来 完成 簇 的 导出 ， 就 像 分 箱 计 数 中 做 的 那样 。 
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均值 特征 化 适合 实数 型 、 有 界 的 、 能 在 空间 中 形成 块 状 密集 区 域 的 数值 特征 。 块 状 区 域 

可 以 是 任意 形状 ， 因 为 我 们 可 以 增加 往 的 数量 来 近似 它们 。( 与 经 典 聚 类 方法 不 同 ， 我 们 

不 关心 如 何 找 出 簇 的 “真实 ”数目 ， 而 只 需 履 盖 它 们 。) 

大 均值 不 能 处 理 欧 氏 距 离 无 效 的 特征 空间 ， 即 分 布 奇特 的 数值 型 变量 或 分 类 变量 。 如 果 特 

征集 合 中 包括 这 种 变量 ， 那 么 有 以 下 儿 种 处 理 方法 。 

(1) 仅 在 实数 型 、 有 界 的 数值 特征 上 应 用 -均值 特征 化 。 

(2) 自 定义 一 种 度量 方式 ， 用 来 处 理 多 种 数据 类 型 ， 并 使 用 大 中 心 点 算法 。( 太 中 心 点 是 一 
种 与 大 均值 类 似 的 方法 ， 允 许 使 用 任意 的 度量 方式 。) 

(3) 先 将 分 类 变量 转换 为 分 箱 计数 统计 量 (I 5.2.2 节 )， 再 使 用 均值 对 其 进行 特征 化 。 

与 处 理 分 类 变量 和 时 间 序 列 的 技术 相 结合 ， 大 均值 特征 化 可 以 用 来 处 理 经 常 出 现在 像 客 户 

营销 和 销售 分 析 这 种 情境 下 的 大 批量 数据 。 最 后 得 到 的 复 可 以 看 作对 用 户 的 细 分 ， 这 在 随 

后 的 建 模 阶段 是 非常 有 用 的 特征 。 










































































7.5 小 结 


本 章 介绍 了 模型 堆 伙 的 概念 ， 使 用 的 是 一 种 非 传统 的 方法 : 将 有 监督 的 大 均值 聚 类 和 简单 
的 线性 分 类 器 结合 起 来 。 太 均值 通常 被 用 作 无 监督 建 模 方法 ， 目 的 是 在 特征 空间 中 找 出 数 
据点 的 密集 复 。 但 在 本 章 中 ， 可 以 有 选择 地 为 万 均 值 提供 类 标签 作为 输入 ， 这 有 助 于 大 均 
值 找到 与 类 别 边界 更 加 对 齐 的 禾 。 

















下 一 章 将 讨论 次 度 学 习 ， 它 通过 将 各 层 神经 网 络 彼此 受 加 在 一 起 ， 将 模型 堆 受 提高 到 了 一 
个 新 的 水 平 。ImageNet 大 规模 视觉 识别 竞赛 近期 的 两 位 优胜 者 使 用 了 13 层 和 22 层 的 神 
经 网 络 。 他 们 利用 了 现 有 的 大 量 未 标记 训练 图 像 ， 从 中 找寻 能 得 到 良好 图 像 特征 的 像素 组 
合 。 本 章 使 用 的 技术 分 别 训练 了 大 均值 特征 生成 器 和 线性 分 类 器 。 但 是 ， 也 可 以 对 特征 生 
成 器 和 分 类 器 进行 联合 优化 。 正 如 我 们 将 看 到 的 ， 深 度 学 习 的 训练 过 程 就 是 采用 的 这 种 技 
术 路 线 。 
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影像 和 声音 是 人 类 固有 的 感官 输入 。 我 们 的 大 脑 天 生 适 合 快 速 发 展 处 理 视觉 和 听觉 信号 的 

， 有 些 系 统 甚至 在 出 生 之 前 就 可 以 对 刺激 做 出 反应 (Eliot, 2000)。 另 一 方面 ,语言 
能 力 则 是 靠 学 习 得 到 的 ， 它 需要 几 个 月 来 发 展 ， 而 完全 掌握 则 需要 好 几 年 。 很 多 人 的 视 
觉 和 听觉 能 力 的 发 展 都 是 自然 而 然 的 ， 但 所 有 人 都 必须 有 意 地 训练 自己 的 大 脑 来 理解 和 
使 用 语言 。 


有 趣 的 是 ， 对 于 机 器 学 习 来 说 ， 情 况 则 正好 相反 。 我 们 在 文本 分 析 应 用 方面 取得 的 进展 要 
远 远 多 于 图 像 和 音频 应 用 。 以 搜索 问题 为 例 ， 人 们 已 经 享受 了 多 年 在 信息 检索 和 文本 搜索 
方面 的 成 果 ， 而 图 像 和 音频 搜索 还 在 走向 成 熟 的 途中 (然而 在 过 去 的 5 年 中 ,深度 学 习 模 
型 取得 了 突破 性 发 展 ， 这 可 能 预示 着 在 图 像 和 语音 分 析 领 域 会 出 现 人 们 期 待 已 久 的 革命 性 
成 果 )。 


进展 中 的 困难 与 从 图 像 和 音频 数据 中 提取 有 意义 特征 的 难度 直接 相关 。 机 器 学 习 模 型 需要 

语义 上 有 意义 的 特征 来 做 出 语义 上 有 意义 的 预测 。 在 文本 分 析 中 ， 尤 其 是 在 像 美 语 这 样 语 
义 上 有 意义 的 基本 单位 (单词 ) 很 容易 提取 的 语言 中 ， 进 展 可 以 非常 快速 。 另 一 方面 ， 图 
像 和 声音 是 以 数字 像素 或 波形 来 记录 的 。 图 像 中 的 单个 “原子 ”是 一 个 像素 。 在 音频 数据 
中 ， 基 本 单位 是 对 波形 密度 的 一 次 测量 。 这 些 单位 包含 的 语义 信息 要 比 文本 数据 的 基本 单 
位 (单词 ) 少 。 因 此 ， 与 文本 相 比 ， 图 像 和 音频 上 的 特征 提取 和 特征 工程 要 困难 得 多 。 
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在 过 去 20 年 中 ， 计 算 机 视觉 研究 的 重点 是 人 工 定 义 的 用 于 提取 良好 图 像 特征 的 流程 。 有 
一 段 时 间 ， 像 SIFT 和 HOG (后 文中 会 介绍 ) 这 样 的 图 像 特 征 提取 器 曾经 成 为 了 标准 。 近 
期 深度 学 习 研 究 的 发 展 扩展 了 传统 机 器 学 习 模 型 的 应 用 范围 ， 它 们 在 基础 层 中 集成 了 自动 
特征 提取 技术 。 这 种 扩展 实质 上 是 使 用 人 工 定义 的 能 自动 学 习 和 提取 特征 的 模型 代替 人 工 
定义 的 特征 图 像 提 取 器 。 人 工 工作 依然 存在 ， 只 是 更 加 深入 地 抽象 到 了 建 模 过 程 内 部 。 


在 本 章 中 ， 我 们 从 最 流行 的 图 像 特征 提取 器 开始 ， 然 后 详细 介绍 本 书 中 最 为 复杂 的 建 模 机 
制 一 一 用 于 特征 学 习 的 深度 学 习 。 


8.1 最 简单 的 图 像 特 征 〈 以 及 它们 因 何 失效 ) 


从 图 像 中 提取 出 的 正确 特征 是 什么 ?答案 当然 取决 于 特征 的 用 途 。 假 设 我 们 的 任务 是 图 像 
检索 : 给 定 一 张 图 片 ， 我 们 要 从 一 个 图 像 数据 库 中 找 出 与 其 相似 的 图 片 。 我 们 需要 确定 如 
何 表示 每 张 图 像 ， 以 及 如 何 测 量 图 像 之 间 的 区 别 。 我 们 能 只 考虑 不 同 颜色 在 图 像 中 的 比例 
吗 ? 图 8-1 中 给 出 了 两 张 图 片 ， 它 们 具有 大 致 相同 的 颜色 配置 ， 但 是 含义 则 大 相 径 庭 。 一 
张 似 乎 是 蓝天 上 的 白云 ， 另 一 张 则 是 海上 的 帆船 。 因 此 ， 仅 赁 颜色 信息 可 能 还 不 足以 标识 
一 幅 图 像 。 



































































































































图 8-1:， 蓝 色 与 白色 同样 的 颜色 配置 ， 完 全 不 同 的 意义 


另外 一 种 简单 思想 是 测量 图 像 之 间 的 像素 值 差 异 。 首 先 ， 调 整 图 像 ， 使 它们 具有 同样 的 宽 
度 和 高 度 。 每 幅 图 像 都 用 一 个 像素 值 矩 阵 来 表示 ， 这 个 矩阵 可 以 按 行 或 按 列 堆 全 成 一 个 长 
向 量 。 每 个 像素 的 颜色 (如 颜色 的 RGB 编码 ) 就 是 图 像 的 一 个 特征 。 最 后 ， 测 量 出 长 像 
素 向 量 之 间 的 欧 氏 距离 。 这 种 方法 确实 能 够 分 辨 出 海上 帆船 和 白云 图 片 ， 但 要 作为 一 种 相 
似 度 测量 ， 它 就 过 于 严格 了 。 白 云 的 形状 可 以 千变万化 ， 但 仍旧 是 云 。 它 可 以 移 到 图 像 的 
一 边 ， 也 可 以 半 掩 在 阴影 里 。 所 有 这 些 变 化 都 会 增加 欧 氏 距离 ， 但 不 会 改变 图 像 仍 旧 是 去 
这 一 事实 。 


问题 在 于 ， 单 个 像素 不 能 携带 足够 的 关于 图 像 的 语义 信息 。 因 此 ， 对 于 分 析 来 说 ， 它 们 不 
是 合适 的 基本 单位 。 
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8.2 人工 特 征 提 取 : SIFT 和 HOG 


1999 年 ， 计 算 机 视觉 研究 者 找到 了 一 种 更 好 的 图 像 表 示 方 法 ， 它 使 用 的 是 小 块 图 像 的 统计 
量 ， 这 种 方法 称 为 尺度 不 变 特 征 转换 (scale invariant feature transform, SIFT) [Lowe, 1999], 


SIFT 最 初 是 为 对 象 识 别 任务 而 开发 的 。 对 象 识 别 不 仅 要 正确 地 标注 出 图 像 中 包含 某 种 对 
象 ， 还 要 确定 对 象 在 图 像 中 的 位 置 。 对 象 识 别 过 程 包括 在 各 种 可 能 的 尺度 层次 上 分 析 图 
像 ， 检 测 能 够 表示 对 象 存在 的 有 趣 的 点 ， 提 取 这 些 有 趣 的 点 的 相关 特征 〈 在 计算 机 视觉 中 
通常 称 为 图 像 描 述 符 ) ， 以 及 确定 对 象 的 姿态 。 


近年 来 ，SIFT 的 使 用 范围 扩大 了 ， 不 仅仅 用 于 我 们 感 兴趣 的 点 ， 还 可 以 提取 整个 图 像 的 
特征 。SIFT 特征 提取 过 程 与 另 一 种 技术 非常 相似 ， 那 就 是 梯度 方向 直方 图 (histogram of 
oriented gradients, HOG) [Dalal and Triggs, 2005]。 这 两 种 技术 本 质 上 都 是 计算 梯度 方向 上 
的 直方 图 ， 下 面 进 行 详细 的 介绍 。 


8.2.1 图 像 梯度 

要 想 比 原始 像素 值 做 得 更 好 ， 必 须 以 某 种 方式 将 像素 “组 织 ” 成 信息 量 更 大 的 单位 。 相 邻 
像素 之 间 的 差别 通常 是 非常 有 用 的 。 像 素 值 一 般 在 对 象 的 边界 发 生 改 变 ， 比 如 一 片 阴影 ， 
一 个 模式 之 中 ， 或 者 一 个 纹理 表面 。 相 邻 像素 在 值 上 的 差异 称 为 图 像 梯 度 。 


计算 图 像 梯度 的 最 简单 方法 是 先 沿 着 图 像 的 横 轴 (x) 和 纵 轴 (y) 分 别 计算 像素 值 的 差异 ， 
然后 将 计算 结果 组 合 到 一 个 二 维 向 量 中 。 这 需要 两 个 一 维 差分 操作 ， 可 以 用 向 量 掩 膜 或 滤 
波 器 方便 地 表示 。 掩 膜 [1, 0, -1] 既 可 以 计算 左 邻 和 右 邻 之 间 的 差异 ， 也 可 以 计算 上 邻 和 
下 邻 之 间 的 差异 ， 这 取决 于 应 用 掩 码 的 方向 。 也 可 以 使 用 二 维 梯度 滤波 器 ， 但 在 这 个 例子 
中 ， 一 维 滤波 器 就 足够 了 。 


要 对 图 像 应 用 滤波 器 ， 可 以 执行 一 个 卷 积 操作 先 对 滤波 器 做 个 翻转 ， 再 与 一 小 块 图 像 做 内 
积 ， 然 后 移动 到 下 一 小 块 。 卷 积 是 信号 处 理 中 的 常用 操作 ， 我 们 使 用 * 来 表示 这 种 操作 : 
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[a b c] * [1 2 3] = c*1 + 5*2 + a*3 


像素 (Lj) BJ x BEREAN y 梯度 分 别 是 : 





gJ) - [1 0-1] * PG- 1) IG) i+ Ly] - 13 Ri Ly) + 1 IG 15) 
gG = [10-1] * Uaj- 1) IG) Gj + 1)] 2-1 * Gj - 1) +1 * 1G * 1) 


放 在 一 起 ， 它 们 就 构成 了 梯度 : 























向 量 可 以 完全 由 它 的 方向 和 大 小 来 表示 。 梯 度 大 小 等 于 梯度 的 欧 几 里 得 范 数 8: +g? ， 它 
表示 像素 周围 的 像素 值 变化 的 程度 。 梯 度 方向 取决 于 水 平和 垂直 方向 上 改变 的 相对 大 小 ， 
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图 8-2: 图 像 梯度 定义 示意 图 





图 8-3 给 出 了 几 个 图 像 梯度 的 简单 例子 ， 包 括 垂直 梯度 和 水 平 梯度 。 每 个 例子 都 是 一 个 9 
像素 图 像 ， 每 个 像素 都 用 灰 度 值 进行 标记 。( 数 字 越 小 ， 颜 色 越 深 。) 中 间 像 素 的 梯度 显示 
在 每 个 图 像 下 方 。 左 侧 图 像 中 有 几 个 水 平 的 色 条 ， 颜 色 只 在 垂直 方向 上 变化 ， 因 此 ， 水 平 
梯度 为 0， 垂直 梯度 不 为 0。 中 间 图 像 中 有 儿 个 垂直 的 色 条 ， 因 此 ， 水 平 梯度 不 为 0。 右 侧 
图 像 的 色 条 在 对 角 线 上 ， 梯 度 方向 也 是 沿 着 对 角 线 的 。 
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68-3: 图 像 梯度 的 简单 例子 
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这 个 定义 在 人 造 示例 上 是 有 效 的 ， 但 对 真实 的 图 像 呢 ?在 例 8-1 中 ， 我 们 使 用 scikit- 


image 中 的 一 张 猫 的 





图 片 来 检查 一 下 这 个 问题 ， 图 








像 的 水 平 梯度 和 垂直 梯度 显示 在 图 8-4 





中 。 因 为 这 些 梯度 是 在 原始 图 像 的 每 个 像素 位 置 上 计算 的 ， 所 以 可 以 得 到 两 个 新 的 矩阵， 


每 个 矩阵 都 可 以 可 视 化 为 一 个 图 像 。 
使 用 Python 计算 简单 图 像 梯度 


import matplotlib.pyplot as plt 
import numpy as np 
from skimage import data, color 











Ea 


例 8-1 


>>> 








>>> 
>>> 





THER E 


>>> 


加 载 示 例 图 像 ， 并 转换 为 灰 度 模式 
image = color.rgb2gray(data.chelsea()) 











THER 
THER 
THER 
THER 


>>> 


使 用 中 心 化 的 一 维 滤波 器 计算 水 平 梯度 。 
这 等 价 于 将 每 个 非 边 界 像素 替换 为 
它 的 左 侧 相 邻 像素 和 右 侧 相 邻 像 素 的 差 。 
最 左边 和 最 右边 上 的 像素 的 梯度 是 6。 





>>> gx[:, 0] = 0 
gx[:, -1] = 0 


gx[:, 1:-1] = image[:, :-2] 


以 同样 的 方式 计算 垂直 梯度 


>>> 
>>> 





THER 


>>> 























>>> gy[0, :] = 0 
gy[-1, :] = 0 


gy[1:-1, :] = image[:-2, :] 


>>> 
>>> - image[2:, 
THHE 


>>> 


MatpLotLib 命 令 


- image[:, 2: 


fig, (ax1, ax2, ax3) = plt.subplots(3, 1, 


gx = np.empty(image.shape, dtype-np.double) 


] 


gy = np.empty(image.shape, dtype=np.double) 


:] 


figsize=(5, 9), 
sharex=True, 
sharey=True) 


axi. 
axi. 
axi. 
axi. 


>>> axis('off') 

imshow(image, cmap=plt.cm.gray) 
set title('Original image') 

set adjustable('box-forced') 


>>> 
>>> 
>>> 


axis('off') 

ax2.imshow(gx, cmap=plt.cm.gray) 
ax2.set title('Horizontal gradients') 
ax2.set adjustable('box-forced') 


>>> ax2. 
>>> 
>>> 
>>> 
>>> axis('off') 

imshow(gy, cmap=pLt.cm.gray) 
set title('Vertical gradients') 
set adjustable('box-forced') 


ax3. 
ax3. 
ax3. 
ax3. 


>>> 
>>> 
>>> 
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图 8-4: 猫 图 像 的 梯度 


请 注意 ， 水 平 梯度 提取 出 了 强烈 的 垂直 模式 ， 比 如 猪 眼 睛 的 内 部 边缘 ， 而 垂直 梯度 则 提取 
出 了 强烈 的 水 平 模式 ， 比 如 胡须 和 上 下 眼 蛤 。 年 看 上 去 ， 这 可 能 有 点 矛盾 ， 但 如 果 仔细 思 
考 一 下 ， 就 会 明白 确实 应 该 是 这 样 的 。 水 平 (x) 梯度 识别 的 是 水 平方 向 上 的 改变 ， 一 个 
强烈 的 垂直 模式 会 在 基本 相同 的 x 位 置 跨越 多 个 y 像素 ， 因 此， 垂直 模式 会 造成 像素 值 在 
水 平方 向 上 的 差异 。 这 也 是 我 们 的 眼睛 检测 到 的 结果 。 


8.2.2 ”梯度 方向 直方 图 

单个 的 图 像 梯度 可 以 提取 出 图 像 相 邻 区 域 中 的 微小 差异 ， 但 我 们 的 眼睛 看 到 的 则 是 更 大 的 
模式 。 例 如 ， 我 们 看 到 的 是 猫 的 整 条 胡须 ， 而 不 仅仅 是 一 个 小 的 部 分 。 人 类 视觉 系统 能 识 
别 出 一 个 区 域 中 的 连续 模式 ， 所 以 要 想 总 结 出 邻近 区 域 的 图 像 梯 度 ， 还 有 更 多 工作 要 做 。 


应 该 将 向 量 描述 得 多 么 精确 ?统计 学 家 会 说 :“ 看 它 的 分 布 ! ”SIFT 和 HOG 都 是 这 样 做 
的 。 具 体 说 来 ， 它 们 计算 ( 归 一 化 ) 梯度 向 量 的 直方 图 作为 图 像 特征 。 直 方 图 将 数据 分 装 
到 多 个 箱子 中 ， 并 计算 出 每 个 箱子 中 数据 点 的 数量 ， 这 是 一 种 (未 归 一 化 的 ) 经 验 分 布 。 
归 一 化 可 以 保证 所 有 计数 的 总 和 为 1， 用 数学 语言 说 就 是 它 具 有 单位 & 范 数 。 


图 像 梯度 是 个 向 量 ， 而 向 量 可 以 通过 两 个 分 量 表示 : 方向 和 大 小 。 所 以 ， 我 们 还 需要 确定 
如 何 设计 直方 图 来 表示 这 两 个 分 量 。SIFT 和 HOG 给 出 了 一 种 表示 方法 ， 将 图 像 梯度 按照 
它们 的 方向 角 0 进行 分 箱 ， 按 照 每 个 梯度 的 大 小 进行 加 权 。 具 体 步 又 如 下 。 


(1) 4 0° ~360” 进 行 等 宽 分 箱 。 
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(2) 对 于 邻 域 中 的 每 个 像素 ， 在 与 其 方向 角 0 对 应 的 分 箱 中 添加 一 个 权重 w。w 是 该 像素 的 
梯度 大 小 与 其 他 相关 信息 的 一 个 函数 。 例 如 ， 这 种 信息 可 以 是 该 像素 与 小 块 图 像 中 心 
点 距离 的 倒数 。 指 导 思想 是 ， 如 果 梯 度 大 ， 权 重 也 应 该 大 ， 而 且 靠 近 图 像 邻 域 中 心 的 
像素 的 重要 程度 要 高 于 那些 远离 中 心 的 像素 。 

(3) 对 直方 图 进行 归 一 化 。 


图 8-5 给 出 了 一 个 在 4 像素 x 4 像素 的 图 像 邻 域 上 的 8 分 箱 梯度 方向 直方 图 示意 图 。 
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图 8-5: ET 4 x 4 方块 单元 像素 梯度 的 8 分 箱 梯度 方向 直方 图 示意 图 


当然 ， 在 基本 梯度 方向 直方 图 算法 中 ， 有 很 多 设置 和 选项 需要 调整 。 通 常 来 说 ， 正 确 的 设 
置 与 要 分 析 的 具体 图 像 高 度 相关 。 


下 面 研究 一 下 几 个 需要 确定 的 问题 以 及 它们 对 模型 的 影响 。 

















1. 需要 多 少 个 分 箱 ? 它们 的 范围 是 0" ~ 360° (有 符号 梯度 ) 还 是 0" ~ 180° (无 符号 梯度 ) ? 

更 多 的 分 箱 可 以 对 梯度 方向 进行 粒度 更 细 的 量化 ， 由 此 可 以 保留 关于 初始 梯度 的 更 多 信 
息 。 但 是 ， 过 多 的 分 箱 不 但 没 必要 ， 还 会 导致 对 训练 数据 的 过 拟 合 。 例 如 ， 你 可 能 不 会 根 
据 方向 正好 在 3” 的 猫 的 胡须 来 识别 图 像 中 的 猫 。 


还 有 一 个 问题 ， 分 箱 范 围 应 该 是 0" ~ 360”( 这 会 保留 沿 着 y 轴 的 梯度 的 正 负 号 )， 还 是 
0° ~ 180° (这 不 会 保留 垂直 梯度 的 正 负 号 ) E? 在 首次 提出 HOG 方法 的 论文 中 ， 作 者 
(Dalal and Triggs, 2005) 通过 实验 确定 了 范围 为 0"~ 180° 的 9 分 箱 方式 是 最 好 的 ， 而 
SIFT 论文 (Lower, 2004) 则 推荐 0 ~ 360° AY 8 分 箱 方式 。 

















2. 使 用 哪 种 权重 函数 ? 
HOG 论文 比较 了 多 种 梯度 大 小 加 权 方 式 ， 向 量 本 身 的 长 度 、 长 度 的 平方 或 平方 根 、 二 值 
化 ， 或 在 高 端 或 低 端 进行 裁剪 。 不 做 任何 处 理 的 普通 长 度 在 作者 的 实验 中 效果 最 好 。 


SIFT 使 用 的 也 是 梯度 本 身 的 长 度 。 此 外 ， 它 还 想 避 免 由 于 图 像 窗口 位 置 的 微小 变化 而 导 
致 的 特征 描述 符 中 的 突变 ， 因 此 ， 它 使 用 一 种 从 窗口 中 心 进行 测量 的 高 斯 距离 函数 ， 对 来 
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1 
自 邻 域 边 缘 的 梯度 赋予 较 低 的 权重 。 换 名 话说 ， 即 用 梯度 大 小 乘 以 55 


是 生成 梯度 的 像素 位 置 ，Po 是 图 像 邻 域 的 中 心 点 ， 高 斯 宽度 o 设 为 邻 域 半 径 的 一 半 。 


SIFT 还 试图 避免 由 于 单个 图 像 梯度 方向 的 微小 变化 而 导致 的 在 梯度 方向 直方 图 中 发 生 的 较 
大 变化 。 因 此 ， 它 使 用 了 一 种 插值 技巧 ， 将 权重 从 一 个 单独 梯度 扩展 到 相 邻 方向 的 分 箱 。 
特别 地 ， 根 分 箱 (梯度 所 在 的 分 箱 ) 获得 的 投票 是 1 乘 以 加 权 的 梯度 长 度 。 每 个 相 邻 分 箱 
获得 的 投票 是 1-4， 其 中 d 是 直方 图 分 箱 单位 与 根 分 箱 之 间 的 差 。 


总 的 来 说 ，SIFT 中 一 个 图 像 梯度 的 投票 是 : 





e loo 26 ， 其 中 p 



























































Wyp,p) = wo, | 


其 中 V, 是 分 箱 5 中 像素 p 的 梯度 ，w, 是 5 的 插值 权重 ，o 是 从 p 到 中 心 点 的 高 斯 距离 。 


3. 如 何 定义 邻 域 ? 邻 域 如 何 覆 盖 图 像 ? 

HOG 和 SIFT 都 采用 了 图 像 邻 域 的 一 种 双 层 表示 法 : 首先 将 邻接 的 像素 组 成 单元 ， 然 后 再 
将 邻接 的 单元 组 织 成 块 。 先 在 每 个 单元 上 计算 方向 直方 图 ， 再 将 单元 直方 图 向 量 连接 起 
来 ， 构 成 整个 块 的 最 终 特 征 描述 符 。 


SIFT 使 用 16 像素 x 16 像素 的 单元 ， 组 织 成 8 个 方向 上 的 分 箱 ， 然 后 按照 4x4 单 元 的 块 
进行 分 组 ， 这 样 图 像 邻 域 就 有 4x4 x 8-128 个 特征 。 



















































































HOG 论文 试验 了 和 矩形 和 圆 形 的 单元 和 块 。 矩 形 单元 称 为 R-HOG 块 。 能 找到 的 最 优 
R-HOG 设置 是 8 像素 x8 像素 的 9 方向 分 箱 ， 再 分 组 成 为 2x2 单元 的 块 。 圆 形 单元 称 为 
C-HOG 块 ， 有 具体 设置 是 可 变 的 ， 由 中 心 单元 的 半径 、 单 元 是 否 按 放射 状 划分 、 外 部 单元 
的 宽度 等 因素 确定 。 



































不 论 邻 域 如 何 组 织 ， 它 们 通常 通过 重 又 来 形成 整个 图 像 的 特征 向 量 。 换 句 话 说 ， 单 元 和 块 
治 着 水 平方 向 和 垂直 方向 在 图 像 中 平移 ， 但 每 次 只 移动 儿 个 像素 ， 以 覆盖 整个 图 像 。 


邻 域 结构 的 主要 内 容 是 多 层次 的 组 织 形式 和 在 图 像 中 平移 的 重 且 窗口。 在 深度 学 习 网 络 的 
设计 中 ， 也 使 用 了 同样 的 模式 。 


4. 应 该 使 用 哪 种 类 型 的 归 一 化 ? 
一 化 可 以 使 特征 描述 符 变 得 均衡 ， 并 且 大 小 是 可 比较 的 。 它 是 第 4 章 中 讨论 的 缩放 的 同 
义 词 。 我 们 已 经 发 现 ， 在 文本 特征 上 的 (tf-idf 形式 的 ) 特征 缩放 对 于 分 类 准确 度 没有 很 大 
的 影响 。 图 像 特征 则 完全 不 同 ， 它 们 对 自然 图 像 中 光照 和 对 比 度 的 变化 非常 敏感 。 举 个 例 
子 ， 我 们 考虑 两 种 情况 下 的 苹果 图 像 ， 一 种 位 于 强烈 的 点 光源 下 ， 另 一 种 则 位 于 从 窗户 透 
过 来 的 柔和 散射 光线 之 下 。 尽 管 图 像 中 的 对 象 都 是 相同 的 ， 但 图 像 梯度 的 大 小 会 有 非常 大 
的 差别 。 正 因为 这 个 原因 ， 一 般 情 况 下 ， 计 算 机 视觉 中 的 图 像 特征 化 首先 要 进行 全 局 颜色 
一 化 ， 目 的 就 是 消除 照明 和 对 比 度 上 的 差异 。 对 于 SIFT 和 HOG， 事 实证 明 只 要 对 特征 
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进行 了 归 一 化 ， 这 种 预 处 理 就 不 是 必要 的 了 。 


SIFT 遵循 的 是 一 种 归 一 化 
(PU 





国 值 一 归 一 化 模式 。 首 先 ， 将 块 特征 向 量 归 一 化 为 单位 长 度 
一 化 )。 然 后 ， 将 特征 裁剪 到 最 大 值 ， 以 消除 极端 的 照明 效果 ， 比 如 来 自 照相 机 的 颜 























色 饱 和 度 。 最 后 ， 将 裁剪 后 的 特征 再 归 一 化 为 单位 长 度 。 





HOG 论文 试验 了 多 种 不 同 的 归 一 化 方法 ， 包 括 


C iE C 范 数 ， 以 及 SIFT 论文 中 使 用 的 


UH 











ft—iB 56 —U4— IE BEN. ERRA, At C 归 一 化 的 可 靠 性 比 其 他 方法 略 差 一 些 ， 其 他 





方法 的 效果 则 没有 太 大 区 别 。 


8.2.3 SIFT 体系 





SIFT 流程 需要 相当 多 的 步骤 。HOG 稍微 简单 一 些 ， 但 同样 需要 很 多 基本 步 又， 比如 创建 





E 


梯度 直方 图 和 归 一 化 。 图 8-6 是 SIFT 体系 的 示意 
首先 将 该 区 域 划 分 为 网 格 。 然 后 ， 将 每 个 网 








。 从 原始 











图 像 的 一 
格 单元 进一步 划分 为 子 网 格 。 每 个 子 网 格 元 素 


个 感 兴 


区 域 开 始 ， 





都 包含 大 量 的 像素 ， 而 且 每 个 像素 都 生成 一 个 梯度 。 每 个 子 网 格 元 素 都 生成 一 个 加 权 梯 度 
估计 ， 基 中 的 权重 是 精心 选择 的 ， 以 使 子 网 格 元 素 外 部 的 梯度 也 有 所 贡献 。 然 后 ， 这 些 梯 











a 





度 估 计 被 聚合 为 子 网 格 的 方向 直方 图 ， 其 中 的 梯度 可 以 具有 前 
后 ， 每 个 子 网 格 的 方向 直方 图 被 连接 成 为 整个 网 格 的 长 梯度 方向 直方 
成 2x2 个 子 网 格 ， 那 么 就 会 有 4 个 梯度 方向 直方 
量 ， 随 后 它 进入 归 一 化 一 国 值 一 归 
。 然 后 ， 各 个 值 被 剪裁 到 一 个 最 大 交 值 。 最 后 ， 对 国 
， 就 得 到 了 这 块 图 像 区 域 的 最 终 SIFT 特征 描述 符 。 
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图 。( 如 果 网 格 被 分 





图 被 连接 成 1 个 。) 这 就 是 网 格 的 特征 向 
化 流程 。 首 先 ， 向 量 被 归 一 化 成 具有 单位 范 数 的 向 
直 剪 裁 后 的 向 量 再 进 





行 ! 


条 归 一 化 。 这 








并 一 化 
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图 8-6: SIFT 体系 一 一 原始 图 像 中 一 块 感 兴趣 区 域 的 特征 向 量 生 成 步骤 
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8.3 通过 深度 神经 网 络 学 习 图 像 特 征 

要 定义 良好 的 图 像 特征 ，SIFT 和 HOG 还 有 很 长 一 段 路 要 走 。 然 而 ， 计 算 机 视 党 领域 的 最 
新 成 果 则 来 自 于 另外 一 个 非常 不 同 的 方向 : 深度 神经 网 络 模型 。 这 一 突破 发 生 在 2012 年 
的 ImageNet 大 规模 视觉 识别 竞赛 (ILSVRC) 中 ， 当 时 来 自 多 伦 多 大 学 的 一 群 研究 者 几 
平 将 前 一 年 优胜 者 的 错误 率 降低 了 一 半 。 他 们 称 其 所 使 用 的 方法 为 “深度 学 习 ”， 以 强调 
这 种 方法 不 同 于 以 前 的 神经 网 络 模 型 ， 而 是 包括 很 多 人 加 在 一 起 的 神经 网 络 层 和 转换 层 
的 最 新 一 代 模 型 。ILSVRC 2012 的 优胜 模型 一 一 后 来 被 称 为 AlexNET， 以 它 的 首席 发 明 
者 命名 一 一 有 13 层 (Krizhevsky 等 ，2012)，ILSVRC 2014 的 获胜 者 GoogleNet 有 22 B 
(Szegedy 等 ，2014)。 
































从 表面 上 看 ， 堆 琶 神 经 网 络 的 机 制 似 乎 与 SIFT 和 HOG 的 图 像 梯度 直方 图 相去 甚 远 。 但 从 
AlexNet 的 可 视 化 可 以 看 出 ， 它 的 最 初 几 层 本 质 上 就 是 计算 边缘 梯度 和 其 他 一 些 简 单 模式 ， 
与 SIFT 和 HOG 非常 相似 。 随 后 的 几 层 将 局 部 模式 组 合成 更 全 局 化 的 模式 。 最 终结 果 是 一 
个 特征 提取 器 ， 比 以 前 的 提取 器 要 强大 许多 。 



































堆 又 神经 网 络 层 (或 任意 其 他 分 类 模型 ) 这 种 模式 并 不 是 什么 新 的 思想 ， 但 训练 这 种 复杂 
模型 需要 大 量 的 数据 和 计算 能 力 ， 这 是 近期 才 具 备 的 。ImageNet 数据 集中 有 120 万 张 标 
记 好 的 图 像 ， 类 别 有 1000 个 。 现 代 GPU 大 大 加 快 了 和 矩阵- 向量 计算 ,很 多 机 器 学 习 模 型 
(包括 神经 网 络 ) 的 内 核 就 需要 这 种 计算 。 深 度 学 习 方 法 的 成 功 就 依赖 于 可 使 用 大 量 数据 
和 大 量 GPU 时 间 。 




















深度 学 习 体 系 由 几 种 不 同类 型 的 层 组 成 。 例 如 ，AlexNet 包括 全 连接 层 、 卷 积 响应 归 一 化 
层 和 最 大 池 化 层 。 下 面 依次 进行 介绍 。 








8.3.1 全 连接 层 

所 有 神经 网 络 的 核心 都 是 输入 的 线性 函数 。 我 们 在 第 4 章 中 遇 到 的 逻辑 回归 就 是 神经 网 络 
的 一 个 例子 。 全 连接 神经 网 络 就 是 所 有 输入 特征 的 线性 函数 集合 。 回 忆 一 下 ， 线 性 函数 可 
以 写作 输入 特征 向 量 和 权重 向 量 的 内 积 ， 再 加 上 一 个 可 能 的 常数 项 。 线 性 函数 集合 可 以 用 
和 矩阵 和 向 量 的 乘积 来 表示 ， 将 权重 向 量变 成 权重 矩阵 (W) 即 可 。 


全 连接 层 的 数学 定义 为 : 

















z= Wx+b 


其 中 歼 的 每 一 行 都 是 一 个 权重 向 量 ， 可 以 将 整个 输入 向 量 x 映射 为 z 中 的 一 个 输出 。b 是 
一 个 由 标量 组 成 的 向 量 ， 表 示 每 个 神经 元 固定 的 偏 移 (或 偏差 )。 


之 所 以 称 为 全 连接 层 ， 是 因为 每 个 输入 都 可 以 用 于 每 个 输出 。 在 数学 上 ， 这 意味 着 对 矩阵 
丈 中 的 值 没有 限制 。( 正 如 我 们 即将 看 到 的 ， 卷 积 层 对 每 个 输出 只 能 使 用 输入 的 一 个 小 型 
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TE.) 如 果 用 图 表示 的 话 ， 全 连接 神经 网 络 可 以 表示 为 一 个 完全 二 分 图 ， 其 中 每 个 输入 
节点 都 连接 到 每 个 输出 节点 ( 见 图 8-7). 




















BAK HEAD 2E A 











图 8-7: 全 连接 神经 网 络 的 图 表示 


全 连接 层 包 含 最 大 可 能 数目 的 参数 (输入 数 x 输出 数 ) ， 因 此 它 非 常 郧 贵 。 如 此 密集 的 连 
接 可 以 让 网 络 探测 包含 所 有 输入 的 全 局 模式 。 由 于 这 个 原因 ，AlexNet 的 最 后 两 层 是 全 连 
接 层 。 全 连接 层 的 输出 彼此 之 间 还 是 独立 的 ， 依 输入 情况 而 定 。 




















8.3.2” 卷 积 层 

与 全 连接 层 不 同 ， 卷 积 层 仅 使 用 输入 的 一 个 子 集 来 生成 输出 。 转 换 过 程 在 输入 中 “移动 ”， 
每 次 使 用 若干 特征 生成 输出 。 为 简单 起 见 ， 我 们 可 以 对 不 同 输入 集合 使 用 同样 的 权重 ， 而 
不 用 为 每 个 输入 集合 学 习 新 权重 。 

在 数学 上 ， 卷 积 算 子 接受 两 个 国 数 作为 输入 ， 生 成 一 个 国 数 作为 输出 。 它 要 先 翻 转 一 个 输 
入 函数 ， 再 将 它 沿 着 另 一 个 函数 移动 ， 并 输出 在 每 个 点 上 递增 的 曲线 下 的 面积 : 


















































CDOS (sa - 0d: - [. gf- 0d: 

计算 一 条 曲线 下 总 面积 的 方法 是 求 它 的 积分 。 这 个 算 子 对 于 输入 是 对 称 的 ， 也 就 是 说 ， 翻 
转 第 一 个 函数 还 是 第 二 个 函数 都 没有 关系 ， 输 出 是 一 样 的 。 

在 介绍 图 像 梯度 时 (8.2.1 节 )， 我 们 已 经 见 过 了 一 个 简单 的 卷 积 示例 。 但 卷 积 的 数学 定义 
还 是 显得 有 些 复杂 、 这 自 有 其 原因 。 使 用 信号 处 理 中 的 例子 来 解释 卷 积 背后 的 思想 是 最 容 
易 的 。 

假设 有 一 个 小 黑 盒 。 为 了 知道 这 个 黑 盒 的 用 处 ， 我 们 向 它 传递 一 个 单位 的 刺激 信号 ， 然 后 
在 一 张 纸 上 记录 输出 结果 ， 直 到 再 没有 对 初始 刺激 的 反应 为 止 。 最 后 得 到 的 随时 间 变 化 的 
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函数 就 是 响应 函数 ， 我 们 称 它 为 gs(D。 


再 假设 我 们 有 某 种 疯狂 的 信号 KD)， 我 们 把 它 持续 地 输入 到 黑 盒 中 。 在 时 刻 1= 0，X0) 与 
RA EEM, ÆRET AO RA e(0)。 在 时 刻 1= 1, f) PEARS, ÆT Al) FEL g(0)。 
与 此 同时 ， 黑 盒 继 续 对 前 面 的 信号 有 0) 产生 响应 ， 这 时 就 要 乘 以 g(1)。 所 以 ， 时 刻 1= 1 的 
总 输出 是 (K0)*e(1)) + (KH1)*e(0))。 在 时 刻 t+= 2， 随 着 有 2) KIMA, KO 和 AD 也 会 继续 产 
生 响 应 ， 情 况 就 更 复杂 了 。 时 刻 上 = 2 的 总 输出 是 0)*g(2)) + (U1)*eg(1)) + (2)*g(0))。 通 
过 这 种 方式 ,rt = 0 总 是 与 当前 输入 到 墨盒 中 的 信号 发 生 作 用 ， 响 应 了 国 数 的 尾部 与 之 前 的 输 
入 信号 发 生 作 用 ， 响 应 函数 实际 上 发 生 了 时 间 的 翻转 。 

















&| 8-8 展示 了 每 个 时 间 点 上 的 相互 作用 。( 注 意 ， 为 了 描述 方便 ， 我 们 把 时 间 离 散 化 了 。 实 
际 上 ， 时 间 是 连续 的 ， 所 以 相 加 实际 上 是 积分 。) 如 果 要 计算 在 一 个 特定 时 间 点 上 的 卷 积 
值 ， 你 需要 将 两 个 重合 的 信号 相 乘 ， 再 累加 起 来 。 
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(o) £0) 
9) 1 300 ga) Te) (0) 1 | 
t t 

t=0: 9°) =|: Xo o) 

pace £0) fc ) 

= SO £0) 
fc 
9 dd 














B 8-8: 两 个 离散 信号 f 和 g 的 卷 积 


这 种 黑 盒 被 称 为 线性 系统 ， 因 为 它 只 进行 标量 相 乘 和 累加 。 卷 积 算 子 清楚 地 捕 多 了 线性 系 
统 的 效果 。 


获 线性 系统 的 效果 ， 而 线性 系统 将 接收 的 信号 与 它 的 响应 函数 相 
当前 响应 在 所 有 过 去 输入 上 的 总 和 。 

















在 我 们 的 例子 中 ，g(D 表示 响应 函数 ，/t〗) 表示 输入 函数 。 但 因为 卷 积 是 对 称 的， 所 以 哪个 
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是 响应 函数 、 哪 个 是 输入 函数 并 不 重要 ， 输 出 就 是 二 者 的 组 合 。g(?) 也 称 为 滤波 器 。 





图 像 是 二 维 信 号 ， 所 以 我 们 需要 一 个 二 维 污 波 器 。 通 过 对 两 个 变量 进行 积分 ， 二 维 卷 积 滤 
波 器 扩展 了 一 维 滤波 器 : 





C * i]= YY fos vleti wj - v] 





因为 数字 图 像 中 是 离散 的 像素 ， 所 以 卷 积 积分 也 变 成 了 离散 求 和 。 而 且 ， 因 为 像素 数目 是 
有 限 的 ， 所 以 滤波 器 函数 只 需要 有 限 数 量 的 元 素 。 在 图 像 处 理 中 ， 二 维 卷 积 滤波 器 也 称 为 
核 或 掩 膜 。 


当 对 一 张 图 像 应 用 卷 积 污 波 器 时 ， 不 一 定 要 定义 一 个 能 覆盖 整个 图 像 的 大 型 闫 波 器 。 相 


反 ， 只 要 能 覆盖 几 个 像素 的 小 型 站 波 器 就 可 以 了 ， 可 以 治 着 图 像 的 水 平方 向 或 垂直 方向 移 
动 并 应 用 同一 个 滤波 器 ( 见 图 8-9). 



































着 积 神经 网 络 


核 宽度 











8-9. 一 维 卷 积 神经 网 络 的 结构 





因为 可 以 在 图 像 上 使 用 同一 个 滤波 器 ， 所 以 只 需 定义 一 小 组 参数 。 需 要 权衡 的 是 ， 这 种 滤 
波 器 每 次 只 能 在 一 个 小 的 像素 邻 域内 提取 信息 。 换 句 话说 ， 卷 积 神经 网 络 识别 的 是 局 部 模 
式 ， 而 非 全 局 模式 。 














注 1: 技术 上 ,滤波 器 是 一 种 转换 ， 用 来 消除 傅 里 叶 波 谱 中 的 特定 部 分 ， 但 现在 人 们 经 常 将 “滤波 器 ”作为 
种 通用 名 称 。 
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卷 积 滤波 器 示例 
在 这 个 例子 中 ， 我 们 对 一 张 图 像 应 用 高 斯 滤波 器 。 高 斯 函数 在 0 周围 形成 了 一 个 平滑 
对 称 的 山庄 形状 。 这 种 滤波 器 可 以 生成 附近 涵 数 值 的 加 权 平 均 。 当 应 用 在 图 像 上 时 ， 
它 的 效果 是 模糊 附近 的 像素 值 。 二 维 高 斯 滤波 器 定义 如 下 : 


G(x,y) ne 22 





其 中 口 是 高 斯 函数 的 标准 差 ， 它 可 以 控制 “ 山 撕 ”的 宽度 。 
在 例 8-2 中 ， 我 们 先 创建 一 个 二 维 高 斯 滤波 器 ， 然 后 用 它 对 小 猫 图 像 求 卷 积 ， 生 成 一 张 模 
糊 的 小 猫 图 像 COLE 8-10) 。 请 注意 ， 这 不 是 最 精确 的 计算 高 斯 滤波 器 的 方法 ， 但 它 是 最 
容易 理解 的 。 更 好 的 实现 方法 是 在 每 个 离散 点 〈 而 不 是 简单 的 点 估计 ) 上 计算 加 权 平 均 。 
例 8-2 在 图 像 上 应 用 简单 高 斯 滤波 器 

>>> import numpy as np 

# 先 创建 5x5 的 x，Y 网 格 矩 了 泗 ， 用 来 计算 高 斯 滤波 器 


>>> ind = [-1., -0.5, 0., 0.5, 1.] 
>>> X,Y = np.meshgrid(ind, ind) 


>>> X 

array([[-1. , -0.5, 0. , 0.5, 1. ], 
[-1. , -0.5, 0. , 0.5, 1. ], 
[-1. , -0.5, 0. , 0.5, 1. ], 
[-1. , -0.5, 0. , 0.5, 1. ], 
[-1. , -0.5, 0. , 0.5, 1. ]D 











# 0 是 个 简单 、 未 归 一 化 的 高 斯 核 ， 其 中 (6，9) 处 的 值 为 1.9 

>>> G = np.exp(-(np.multiply(X,X) + np.multiply(Y,Y))/2) 

>>> 0 

array([[ 0.36787944, 
[ 0.53526143, 
[ 0.60653066, 
[ 0.53526143, 
[ 0.36787944, 








.53526143, ©.60653066, 0.53526143, 0.36787944], 
.77880078, ©.8824969 , 0.77880078, 20.53526143], 
.8824969 , 1. , ©.8824969 , ©.60653066], 
.77880078, ©.8824969 , 0.77880078, 20.53526143], 
.53526143, ©.60653066, ©.53526143, 0.36787944]]) 


OOOO 


>>> from skimage import data, color 
>>> cat = color.rgb2gray(data.chelsea()) 


>>> from scipy import signal 
>>> blurred cat = signal.convolve2d(cat, G, mode-'valid') 


>>> import matplotlib.pyplot as plt 
>>> fig, (axl, ax2) = plt.subplots(1, 2, figsize=(10,4), 
sharex=True, sharey=True) 


>>> axi.axis('off') 

>>> ax1.imshow(cat, cmap=plt.cm.gray) 
>>> ax1.set_title('Input image') 

>>> ax1.set adjustable('box-forced') 
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>>> ax2.axis('off') 

>>> ax2.imshow(blurred cat, cmap-plt.cm.gray) 

>>> ax2.set title('After convolving with a Gaussian filter') 
>>> ax2.set adjustable('box-forced') 




















使 用 高 斯 滤波 器 求 卷 积 后 














图 8-10. 应 用 二 维 高 斯 滤波 器 前 后 的 小 猫 图 片 











AlexNet 中 的 卷 积 层 是 三 维 的 ， 也 就 是 说 它们 处 理 的 是 来 自 于 前 一 层 的 三 维 像素 (表示 三 
维 图 像 空间 的 数组 值 ) 。 第 一 个 卷 积 神经 网 络 接受 原始 RGB 图 像 并 学 习 出 卷 积 滤波 器 ， 可 
用 于 在 所 有 三 个 颜色 通道 上 的 局 部 图 像 邻 域 。 随 后 的 儿 层 接受 输入 的 三 位 像素 ， 沿 着 空间 
和 核 维度 进行 处 理 。 参 考 图 8-14 获得 更 多 详细 信息 。 























8.3.3 ”ReLU 变 换 

神经 网 络 的 输出 通常 被 传递 到 另 一 种 非 线性 变换 中 ， 这 种 非 线 性 变换 又 称 为 激活 函数 。 常 
用 的 激活 函数 包括 tanh 国 数 (一 个 位 于 -1 和 1 之 间 的 平滑 非 线性 函数 )、sigmoid 函数 
(一 个 位 于 0 和 1 之 间 的 平 请 非 线性 函数 ， 在 4.3 节 中 介绍 过 )， 以 及 所 谓 的 线性 整流 函数 
(ReLU)。ReLU 是 线性 函数 的 一 个 简单 变种 ， 它 的 负数 部 分 都 被 归 零 。 也 就 是 说 ， 它 裁剪 
掉 了 负数 部 分 ， 保 留 了 无 界 的 正 数 部 分 。ReLU 的 取 值 范围 是 0 到 00, 








常用 激活 函数 
ReLU 是 一 个 负数 部 分 归 零 的 线性 函数 : 
ReLU(x) = max(0, x) 
tanh $ Z X — 4 FEARS -1 增长 到 1 HSA dd: 


sinh(x) e'-e" 
cosh(x) e*+e~ 








tanh(x) = 


sigmoid 函数 平滑 地 从 0 增长 到 1: 





=E 


sigmoid(x) = : 











图 8-11 给 出 了 这 3 个 函数 的 示意 图 。 





Reula) 


9 a 














B 8-11: 3 个 常用 激活 函数 的 示意 图 : ReLU, tanh 和 sigmoid 


























ReLU 变换 对 非 负 函数 没有 效果 ， 如 原始 图 像 或 高 斯 滤波 器 。 然 而 ， 训 练 后 的 神经 网 络 ， 不 
管 是 全 连接 类 型 还 是 卷 积 类 型 ， 都 可 能 输出 负 值 。AlexNet 使 用 ReLU 变换 而 不 是 其 他 变换 ， 
在 训练 时 可 以 更 快 地 收 化 (Krizhevsky 等 ，2012)。 它 在 所 有 卷 积 层 和 全 连接 层 都 使 用 ReLU。 



































8.3.4 ”响应 归 一 化 层 

经 过 了 第 4 章 和 本 章 前 面 的 讨论 ， 归 一 化 这 个 概念 我 们 已 经 耳熟能详 。 归 一 化 用 单个 输出 
除 以 全 部 响应 的 一 个 函数 。 所 以 ， 理 解 归 一 化 的 另 一 种 方式 是 ， 它 在 邻居 之 间 建 立 了 一 种 
竞争 关系 ， 因 为 这 样 每 个 输出 的 强度 都 要 相对 于 它 的 邻居 来 测量 ( 见 图 8-12)。AlexNet 在 
不 同 核 的 每 个 位 置 上 对 输出 进行 归 一 化 。 
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图 8-12: 来 自 上 一 层 卷 积 核 输出 的 响应 归 一 化 结构 ， 归 一 化 常数 是 根据 上 一 层 的 邻 域 计 算得 出 的 
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局 部 响应 归 一 化 在 相 邻 核 之 间 引 起 竞争 
顾名思义 ， 局 部 响应 归 一 化 将 某 个 值 除 以 它 的 邻居 组 合 ， 公 式 如 下 : 


p 
x. 2 
Ve E Xk fle t WE cds of hE ) 


其 中 ,六 是 第 上 个 核 的 输出 ， 坟 相对 于 邻 域 中 其 他 核 的 归 一 化 响应 。 对 于 每 个 输出 位 
置 ， 归 一 化 是 分 别 进行 的 ; 也 就 是 说 ， 对 每 个 输出 位 置 (i, 站 ， 我 们 都 通过 附近 的 卷 积 
核 输 出 进行 归 一 化 。 注 意 ， 这 不 同 于 通过 图 像 邻 域 或 输出 位 置 进行 的 归 一 化 。 核 邻 域 
的 大 小 c、c、 有 都 是 通过 图 像 验证 集 调 优 的 超 参数 。 








8.3.5 WE 

池 化 层 将 多 个 输入 组 合成 一 个 输出 。 当 卷 积 滤波 器 在 图 像 上 移动 时 ， 每 处 理 一 个 邻 域 都 会 
生成 一 个 输出 。 池 化 强制 一 个 局 部 图 像 邻 域 生成 一 个 值 ， 而 不 是 多 个 值 。 这 可 以 减少 深度 
学 习 网 络 中 间 层 的 输出 数量 ， 从 而 有 效 降低 网 络 在 训练 数据 时 出 现 过 拟 合 的 概率 。 

有 多 种 方法 可 以 池 化 输入 : 求 平 均值 、 求 和 (或 计算 广义 的 范 数 ) 或 取 最 大 值 。 池 化 可 以 
沿 着 图 像 或 中 间 输 出 层 移动 进行 。AlexNet 使 用 重 琶 的 最 大 值 池 化 ， 在 图 像 中 以 两 个 像素 
(或 输出 ) 的 步 长 进行 移动 ， 在 3 个 邻居 之 间 进 行 池 化 ， 见 图 8-13。 















































KK to wet 
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8.3.6 ”AlexNet 的 结构 


总 体 来 说 ，AlexNet 包括 5 个 卷 积 层 、2 个 响应 归 一 化 层 、3 个 最 大 值 池 化 层 和 2 个 全 连接 层 。 
加 上 最 终 的 分 类 输出 层 ， 模 型 中 一 共有 13 个 神经 网 络 层 ， 形 成 了 8 个 层 组 ， 详 见 图 8-14。 
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卷 积 + 响应 归 一 化 + 最 大 值 池 化 E 
卷 积 + 响应 归 一 化 + 最 大 值 池 化 noe 最 大 值 池 化 
on PR 民 + 全 连接 
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输入 图 像 














图 8-14: AlexNet 体系 结构 图 一 一 不 同 的 灰 度 (如 果 你 用 全 彩 模式 看 这 张 图 ， 就 是 品 红 和 蓝 色 ) 分 
别 表示 驻 留 在 GPU 1 和 GPU 2 上 的 层 


输入 图 像 首 先 被 缩放 为 256 像素 x 256 像素 ， 实 际 上 被 剪裁 为 224 像素 x 224 像素 大 小 ， 
带 有 3 个 颜色 通道 。 前 两 个 卷 积 层 后 面 都 分 别 跟 有 一 个 响应 归 一 化 层 和 一 个 最 大 值 池 化 
层 ， 最 后 一 个 卷 积 层 后 面 跟 有 一 个 最 大 值 池 化 层 。 原 始 论文 将 训练 数据 和 计算 分 布 在 两 个 
GPU 上 ， 层 之 间 的 通信 大 多 限制 在 同一 GPU 中 ， 例 外 是 层 组 2 和 层 组 3 之 间 以 及 层 组 5 
之 后 。 在 那些 边界 点 上 ， 下 一 层 接受 一 个 来 自 于 上 一 层 的 三 维 像素 作为 核 的 输入 ， 上 一 层 
可 以 位 于 任意 一 个 GPU 上 。 每 个 中 间 层 后 面 都 要 跟随 ReLU 变换 。 








3 


























图 8-15 展示 了 卷 积 + 响应 归 一 化 + 最 大 值 池 化 的 详细 视图 。 注 意 ， 归 一 化 常数 是 在 核 之 
间 计 算 的 ， 而 池 化 则 发 生 在 图 像 区域 之 间 。 而 且 ， 池 化 会 降低 层 的 维度 。 



































响 名 妆 一 化 + 最 大 值 沁 化 的 详细 视图 


最 大 值 记 化 














图 8-15: 卷 积 + 响应 归 一 化 + 最 大 值 池 化 的 详细 视图 
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TER, AlexNet 的 体系 结构 令 我 们 想起 了 SIFT/HOG 特征 提取 器 的 梯度 直方 图 一 归 一 化 一 
国 值 一 归 一 化 体系 ( 见 图 8-6)， 只 是 它 具 有 更 多 的 层 。( 这 就 是 “深度 学 习 ” 中 “深度 ” 
的 由 来 。) 然而 ， 与 SIFT/HOG 不 同 的 是 ， 卷 积 核 与 全 连接 权重 是 从 数据 中 学 习 出 来 的 ， 
而 不 是 预先 定义 的 。 而 且 ，SIFT 中 的 归 一 化 步骤 是 在 整个 图 像 区 域 的 特征 向 量 之 间 进 行 
的 ， 而 AlexNet 中 的 响应 归 一 化 层 是 在 卷 积 核 之 间 执行 归 一 化 的 。 


从 一 个 较 高 的 角度 来 看 ， 这 个 模型 首先 从 局 部 图 像 邻 域 提取 模式 。 每 个 后 续 的 层 都 建立 在 
前 面 的 层 的 输出 之 上 ， 有 效 地 覆盖 了 初始 图 像 的 连续 大 片区 域 。 因 此 ， 即 使 前 5 个 卷 积 层 
都 只 有 较 小 的 核 宽 度 ， 后 面 的 层 还 是 能 构造 出 更 为 全 局 化 的 模式 ， 最 后 的 全 连接 层 则 是 最 
为 全 局 化 的 。 


尽管 模式 的 概念 非常 清晰 ， 但 要 将 每 个 层 提取 出 的 实际 模式 可 视 化 也 是 非常 困难 的 。 图 8-16 


和 图 8-17 给 出 了 由 模型 中 学 习 出 的 卷 积 核 的 前 两 层 的 可 视 化 。 第 一 层 包括 不 同方 向 上 的 灰 
度 边 缘 和 纹理 探测 器 、 色 团 和 纹理 。 第 二 层 似乎 包括 各 种 平滑 模式 探测 器 。 



























































图 8-16: 训练 后 AlexNet 中 第 一 层 卷 积 核 的 可 视 化 ， 一 半 核 是 在 GPU 1 上 学 习 的 ， 似 乎 是 检测 不 同 
方向 上 的 灰 度 边缘 和 纹理 的 ， 另 一 半 在 GPU 2 上 训练 ， 主 要 检测 色 团 和 模式 




















& 8-17: 训练 后 AlexNet 中 第 二 层 卷 积 核 的 可 视 化 


尽管 这 个 领域 取得 了 重大 进展 ， 但 图 像 特 征 化 还 是 更 像 一 门 艺术 ， 而 不 是 科学 。 十 年 前 ， 
研究 者 们 使 用 图 像 梯度 、 边 缘 检 测 、 方 向 、 空 间 线索 、 平 谓 和 归 一 化 等 技术 组 合 进 行 手 
工 特征 提取 。 现 在 ， 深 度 学 习 体 系 建立 的 模型 封装 了 大 致 相同 的 技术 ， 但 参数 是 从 训练 

















门 去 探索 ! 


8.4 小 结 














图 像 中 自动 学 习 的 。 深 度 学 习 的 神奇 魔力 就 隐 成 在 模型 更 深 处 的 一 种 抽象 之 中 ， 等 待 我 


在 接近 尾声 的 时 候 ， 我 们 可 以 凭借 从 本 章 获得 的 直觉 更 好 地 理解 : 为 什么 多 数 简单 直观 的 
图 像 特 征 对 于 执行 像 图 像 分 类 这 样 的 任务 并 不 总 是 最 好 的 。 更 重要 的 事情 不 是 将 每 个 像素 


表示 成 原子 单位 ， 而 是 考虑 像素 与 其 邻近 像素 之 间 的 关系 。SIFT 和 HOG 本 来 是 为 其 他 任 


务 而 开发 的 ， 但 我 们 可 以 修改 一 下 这 些 技术 ， 通 过 分 析 邻 域 中 的 梯度 更 好 
提取 特征 。 


近年 来 的 一 次 技术 飞跃 是 在 计算 机 视觉 领域 使 用 深度 神经 网 络 ， 目 的 是 使 


地 从 整个 图 像 中 








图 像 的 特征 提取 


得 到 更 好 的 发 展 。 我 们 需要 记 住 的 重点 是 ,深度 学 习 将 很 多 神经 网 络 层 和 转换 层 彼此 堆 琶 











觉 的 基础 组 成 部 分 : 定义 线条 、 梯 度 、 颜 色 图 。 











在 一 起 。 在 分 别 检查 时 ， 其 中 有 些 层 可 以 提取 出 相似 的 特征 ， 这 些 特 征 可 以 认为 是 人 类 视 
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回 到 特征 ， 建立 学 术 论文 推荐 器 


“在 数学 中 ， 你 不 是 去 理解 事情 ， 你 只 是 习惯 它们 。” 


一 一 约翰 y BRE 














是 有 意 设 计 成 有 说 明 性 和 局 发 性 的 。 





当 第 一 次 看 到 图 1-1 中 从 数据 到 结果 的 路 径 时 ， 很 可 能 会 无 所 适 从 。 纵 贯 本 书 ， 我 们 的 重 
点 在 于 介绍 特征 工程 的 基本 原则 ， 我 们 使 用 的 是 玩具 模型 和 简单 明了 的 数据 集 ， 这 些 例子 


机 器 学 习 的 例子 通常 展示 最 理想 的 情况 和 最 佳 结 果 ， 这 掩盖 了 本 书 中 描述 的 路 径 中 的 艰 
辛 。 既 然 基 础 已 经 打 好 ， 我 们 就 离开 模拟 数据 的 简单 世界 ， 投 入 到 使 用 真实 的 、 结 构 化 数 

















进行 特征 转换 ， 以 及 特征 工程 中 需要 何 种 权衡 取舍 。 





据 集 的 特征 工程 中 。 在 前 进 的 每 个 阶段 中 ， 我 们 都 会 研究 如 何 从 原始 数据 生成 特征 ， 


如 何 


先 说 一 下 ， 这 个 综合 示例 的 目标 不 是 为 数据 集 建立 最 好 的 模型 ， 而 是 演示 一 下 本 书 中 儿 种 
技术 的 实际 应 用 ， 以 及 如 何 更 加 深入 地 研究 一 下 各 种 技术 是 否 可 以 为 建 模 过 程 提 供 价值 。 


9.1 基于 项 目的 协同 过 滤 





我 们 的 任务 是 使 用 微软 学 术 图 谱 的 一 个 子 样本 为 学 术 论文 建立 一 个 推荐 器 。 这 个 推荐 器 对 


于 那些 需要 搜索 论文 引用 但 还 没有 发 现 Google Scholar 的 人 来 说 是 非常 方便 的 。 下 
于 这 个 数据 集 的 一 些 统计 量 。 
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微软 学 术 图 谱 数 据 集 


È EA 166192182 篇 论文 , 可 经 由 Open Academic Graph 获取 , 只 能 用 于 研究 目的 。 
完整 数据 集 的 大 小 是 104GB。 

每 条 观测 有 18 个 变量 用 以 标识 论文 ， 包 括 论 文 题目 、 论 文摘 要 、 作 者 姓名 、 关 键 
字 和 研究 领域 。 








这 个 数据 集 被 设计 成 易于 使 用 数据 库存 储 和 读 取 。 对 于 机 器 学 习 模 型 来 说 ， 它 不 够 整洁 ， 
需要 做 一 些 基 本 的 数据 整理 。 有 些 教师 喜欢 省 略 这 个 步骤 ， Meer 
以 此 来 提高 他 们 的 兴趣 。 我 们 可 不 这 么 做 ， 一 切 都 从 头 开始 。 





一 步 是 将 一 些 变 量 整 理 为 正确 的 形式 ， 建 立 一 个 基于 项 目的 协同 过 滤器 ， 看 看 能 否 快 速 
有 效 地 找到 那些 非常 相似 的 论文 。 


基于 项 目的 协同 过 滤 之 起 源 

这 种 方法 最 初 是 由 Amazon 公司 开发 的 ， 作 为 基于 用 户 的 商品 推荐 算法 的 一 
种 改进 。Sarawar 等 人 详细 介绍 了 将 推荐 算法 从 基于 用 户 切 换 到 基于 项 目的 
过 程 中 的 困难 和 收获 (Sarawar 等 ，2001)。 


























基于 项 目的 协同 过 滤 方 法 根据 项 目 之 间 的 相似 程度 来 提供 推荐 。 这 项 工作 分 为 两 个 阶段 : 
首先 找 出 项 目 之 间 的 相似 度 评分 ， 然 后 对 所 有 评分 进行 排序 ， 找 到 前 N 个 相似 项 目 作为 
推荐 。 





建立 基于 项 目的 推荐 器 
基于 项 目的 推荐 器 完成 以 下 三 项 任务 。 
(1) 生成 关于 “事物 ”或 项 目的 信息 。 
Q) 对 所 有 项 目 进行 评分 ， 找 出 与 某 个 项 目 “ 相 似 ” 的 其 他 项 目 。 
(3) 返回 评分 MER OB. 











9.2 第 一 天 : 数据 导入 、 清 理 和 特征 解析 


与 所 有 优秀 的 科学 实验 一 样 ， 我 们 从 一 个 假设 开始 。 在 这 个 例子 中 ， 我 们 假定 那些 大 约 在 
同一 时 间 而 且 在 同一 研究 领域 发 表 的 论文 对 用 户 是 最 有 用 的 。 我 们 使 用 一 种 简单 的 方法 从 
完整 数据 集 的 一 个 子 样 本 中 解析 出 这 些 字段 。 在 生成 了 简单 的 稀 疏 数组 后 ， 我 们 在 整个 项 
目 数组 上 运行 基于 项 目的 协同 过 滤器 ， 看 看 能 否 得 到 满意 的 结果 。 











T 











基于 项 目的 协同 过 滤器 使 用 相似 度 评分 来 比较 项 目 。 在 这 个 例子 中 ,余弦 相似 度 可 以 在 两 
个 非 零 向 量 之 间 提 供 合 理 的 比较 。 下 面 的 例子 使 用 的 就 是 余弦 距离 ， 它 是 余弦 相似 度 在 正 
空间 中 的 补 集 ， 即 : 




















T 








D(A, B) = 1— SA, B) 
其 中 D, ERZEK, S 是 余弦 相似 度 。 
学 术 论 文 推荐 器 : 简单 方法 


第 一 步 就 是 导 和 人 和 检查 数据 集 。 在 例 9-1 中 ， 我 们 先导 入 数据 ， 然 后 选择 出 一 些 可 用 的 字 
段 ， 以 此 来 开始 实验 。 在 保留 的 字段 中 仍然 含有 丰富 的 信息 ， 如 图 9-1 所 示 。 














例 9-1 导入 并 过 渡 数 据 


>>> import pandas as pd 


>>> model df = pd.read json('data/mag papers 0/mag subset20K.txt', lines-True) 

>>> model df.shape 

(20000, 19) 

>>> model df.columns 

Index(['abstract', 'authors', 'doc type', 'doi', 'fos', 'id', 'issue', 
'keywords', 'lang', 'n citation', 'page end', 'page start', 'publisher', 
'references', 'title', 'url', 'venue', 'volume', 'year'], 

dtype='object') 


# 滤 掉 非 英文 文章 ， 只 关注 几 个 变量 
>>> model df = model df[model df.lang -- 'en'] 
.drop duplicates(subset-'title', keep='first') 
.drop(['doc type', 'doi', 'id', 'issue', 'lang', 'n citation', 
'page end', 'page start', 'publisher', 'references', 
'url', 'venue', 'volume'], 











UM axis-1) 
>>> model df.shape 
(10399, 6) 
abstract authors fos keywords title year 
0 A system and method for NaN [Electronic engineering, Computer NaN System and Method for Maskless 2015 
maskless direct write … hardware, En... Direct Write Li... 
1 N [('name': 'Ahmed M. [Biology, Virology, Immunology, [paratuberculosis, of, subspecies, The dilemma of the Mycobacterium 
laN inei Á 2016 
Alluwaimi'}] Microbiology] proceedings... avium subspec... 











图 9-1: 微软 学 术 图 谱 数据 集 的 前 两 行 


从 表 9-1 中 可 以 非常 清楚 地 看 出 ， 需 要 何 种 程度 的 数据 整理 才能 将 原始 数据 转换 为 更 适合 
建 模 的 形式 。 列 表 和 字典 便于 数据 存储 ， 但 如 果 不 经 过 一 些 解 包 操作 的 话 ， 就 不 够 整洁 ， 
不 能 很 好 地 适合 机 器 学 习 (Wickham, 2014)。 
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3&9-1: model_df 的 数据 模式 











字段 名 称 Ho o R 字段 类 型 空 值 数 
abstract 论文 摘要 字符 串 4393 
authors 作者 姓名 与 单位 字典 列表 ， 键 为 name, org 1 

fos 研究 领域 字符 串 列 表 1733 
keywords 关键 字 字符 串 列 表 4294 
title 论文 题目 字符 串 0 

year 发 表 年 份 整数 0 


在 例 9-2 中 ， 我 们 先 重 点 关注 两 个 字段 ， 将 它们 从 列表 和 整数 转换 为 特征 数组 ， 如 图 





所 示 。 





例 9-2 协同 过 滤 阶 段 1: 建立 项 目 特征 秆 阵 


>>> unique fos = sorted(list({feature 


for paper row in model df.fos.fillna('0') 


for feature in paper row })) 


>>> unique year = sorted(model df['year'].astype('str').unique()) 
>>> def feature array(x, var, unique array): 
row dict = {} 
for i in x.index: 
var dict = {} 
for j in range(len(unique array)): 
if type(x[i]) is list: 
if unique array[j] in x[i]: 
var_dict.update({var + 
else: 
var_dict.update({var + 


a 


+ unique_array[j]: 
'_' + unique array[j]: 
else: 
if unique array[j] == str(x[i]): 
var dict.update((var + ' ' + unique array[j]: 
else: 
var dict.update((var + ' ' + unique array[j]: 
row dict.update([i : var dict)) 
feature df = pd.DataFrame.from dict(row dict, dtype='str').T 
return feature df 





>>> year features = feature array(model df['year'], unique year) 
>>> fos features = feature array(model df['fos'], unique fos) 


>>> first features = fos features.join(year features).T 
>>> from sys import getsizeof 


>>> print('Size of first feature array: ', getsizeof(first features)) 
Size of first feature array: 2583077234 


1p 
03) 


1p 
03) 














012578 9 10 11 12 .. 19985 19986 19987 19988 19993 19994 19995 19997 19998 19999 
05030:0202050509 ON Oe One. 0 0 0 0 0 0 0 0 0 0 
0-10 V lighting control 000000000 0. 0 0 0 0 0 0 0 0 
1/N expansion 0000000 0 0 0. 0 0 0 0 0 0 0 0 0 0 
10G-PON 0000000 0 0 0. 0 0 0 0 0 0 0 0 0 0 
14-3-3 protein 0 000000000. 0 0 0 0 0 0 0 0 0 0 

5 rows x 10399 columns 











& 9-2: first features 的 头 部 一 一 原始 数据 集中 观测 GE XO. 的 索引 是 列 ， 特 征 是 行 

我 们 成 功 地 将 一 个 较 小 的 数据 集 (大 约 1 万 行 原始 数据 ) 转换 成 了 2.5GB 的 特征 。 但 对 于 
需要 快速 迭代 的 数据 探索 过 程 来 说 ， 这 种 方法 太 笨 重 了 。 我 们 需要 更 快速 的 方法 ， 使 得 出 
的 特征 占用 更 少 的 计算 资源 和 实验 时 间 。 





稍 安 勿 躁 ， 不 妨 先 看 一 下 ， 现 在 这 种 特征 在 下 一 阶段 能 为 我 们 做 出 多 么 好 的 推荐 ( 见 例 9-3). 
我 们 定义 “好 ”的 推荐 就 是 与 输入 相似 的 论文 。 


例 9-3 协同 过 滤 阶 段 2: 查找 相似 项 目 


>>> from scipy.spatial.distance import cosine 








>>> def item collab filter(features df): 
item similarities = pd.DataFrame(index = features df.columns, 
columns - features df.columns) 
for i in features df.columns: 
for j in features df.columns: 
item similarities.loc[i][j] = 1 - cosine(features df[i], 
features df[j]) 
return item similarities 


>>> first items = item collab filter(first features.loc[:, 0:1000]) 


38401 LA fi FR P PIER VOU ERREUR, DS FE IA VERUS ee ZH? PR CCELI T 
套 for 循环 来 计算 一 个 10 399 x 1000 的 矩阵 的 点 积 。 如 果 向 模型 中 添加 了 更 多 观测 ， 那 每 
次 循环 的 时 间 还 会 增加 。 注 意 ， 我 们 只 筛选 出 了 英文 论文 ， 这 只 是 整个 可 用 数据 集 的 一 个 
子 集 。 当 得 到 一 个 差不多 “好 ”的 结果 时 ， 还 需要 回 到 更 大 的 数据 集合 上 进行 测试 ， 看 看 
这 是 不 是 最 好 的 结果 。 




















怎么 才能 做 得 更 快 一 些 呢 ?” 因 为 每 次 只 需要 一 个 结果 ， 所 以 可 以 修改 一 下 函数 ， 指 定 我 
们 需要 的 前 几 个 结果 的 数量 ， 每 次 只 计算 一 个 项 目 。 我 们 以 后 会 这 么 做 ， 因 为 需要 持续 
改进 实验 。 眼 下 还 是 使 用 全 特征 空间 ， 理 解 一 下 在 实际 数据 集 上 使 用 暴力 算法 时 迭代 造 
成 的 影响 。 





























要 得 到 好 的 推荐 ， 需 要 一 种 更 好 的 特征 转换 方法 。 我 们 有 足够 的 观测 来 改进 吗 ? 让 我 们 绘 
制 一 幅 热 图 ( 见 例 9-4) ， 看 看 是 否 有 彼此 相似 的 论文 。 结 果 显 示 在 图 9-3 中 。 
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Bl 9-4 论文 推荐 热 图 

>>> import matplotlib.pyplot as plt 

>>> import seaborn as sns 

>>> import numpy as np 

>>> 9mmatplotlib inline 

>>> sns.set() 

>>> ax = sns.heatmap(first items.fillna(0), 
vmin=0, vmax=1, 
cmap="YLGnBu" , 

and xticklabels=250, yticklabels-250) 

>>> ax.tick params(labelsize-12) 
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89-3: 相似 论文 热 图 ， 基 于 两 个 初始 特征 ， 发 表 年 份 和 研究 领域 


颜色 较 暗 的 像素 表示 彼此 相似 的 项 目 。 黑 色 对 角 线 说 明了 余弦 相似 度 能 正确 地 表示 出 每 篇 
论文 都 与 它 本 身 是 最 相似 的 。 但 是 ， 因 为 有 个 特征 中 有 很 多 NaN 值 ， 所 以 对 角 线 是 断 断 
续 续 的 。 可 以 看 出 ， 尽 管 多 数 项 目 是 彼此 不 相似 的 〈 这 说 明 我 们 的 数据 集 来 源 非 常 广泛 )， 
但 还 是 有 一 些 相似 度 评 分 很 高 的 候选 值 。 定 性 地 看 ， 这 些 可 能 是 好 的 推荐 ， 也 可 能 不 是 ， 
但 至 少 说 明了 我 们 的 方法 不 是 一 无 是 处 。 


例 9-5 给 出 了 将 项 目 相 似 度 转换 为 推荐 的 方法 。 好 消息 是 我 们 还 有 大 量 可 用 的 特征 ， 改 进 
空间 非常 大 。 


例 9-5 基于 项 目的 协同 过 滤 推 荐 
>>> def paper recommender(paper ix, items df): 
print('Based on the paper: \nindex = ', paper ix) 
print(model df.iloc[paper ix]) 
top results - items df.loc[paper ix].sort values(ascending-False).head(4) 
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print('\nTop three results: ') 


order = 1 
for i in top_results.index.tolist()[-3:]: 
print(order,'. Paper index = ', i) 


print('Similarity score: ', top results[i]) 
print(model df.iloc[i], '\n') 
if order < 5: order += 1 


>>> paper recommender(2, first items) 


Based on the paper: 


index = 2 

abstract NaN 
authors [{'name': 'Jovana P. Lekovich', 'org': 'Weill ... 
fos NaN 
keywords NaN 
title Should endometriosis be an indication for intr... 
year 2015 
Name: 2, dtype: object 

Top three results: 

1. Paper index - 2 

Similarity score: 1.0 

abstract NaN 
authors [{'name': 'Jovana P. Lekovich', 'org': 'Weill ... 
fos NaN 
keywords NaN 
title Should endometriosis be an indication for intr... 
year 2015 
Name: 2, dtype: object 

2 . Paper index = 292 

Similarity score: 1.0 

abstract NaN 
authors [{'name': 'John C. Newton'}, {'name': 'Beers M... 
fos [Wide area multilateration, Maneuvering speed,... 
keywords NaN 
title Automatic speed control for aircraft 
year 1955 


Name: 561, dtype: object 


3 . Paper index = 593 
Similarity score: 1.0 


abstract This paper demonstrates that on ite greywater... 
authors [{'name': 'Eran Friedler', 'org': ‘Division of... 
fos [Public opinion, Environmental Engineering, Wa... 
keywords [economic analysis, tratamiento desperdicios, 

title The water saving potential and the socio-econo... 
year 2008 


Name: 1152, dtype: object 


呀 ， 好 消息 是 返回 的 最 相似 论文 就 是 我 们 要 找 的 论文 ， 坏 消息 是 另外 两 篇 论文 似乎 与 我 们 
的 搜索 初 囊 相 去 其 远 ， 即 使 我 们 使 用 了 选 定 的 特征 。 
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“是 的 ， 是 的 ,” 你 可 能 会 说 ,，“ 但 现在 是 大 数据 时 代 ， 这 会 解决 我 们 的 问题 ! 我 们 难道 不 
能 通过 更 多 数据 找 出 更 好 的 结果 吗 ? ”可 能 会 ， 但 即使 大 数据 也 不 能 弥补 糟糕 的 数据 和 特 
征 选择 所 造成 的 恶果 。 
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图 9-4: 机 器 学 习 (https://xked.com/1838/) 


现在 的 暴力 方法 太 慢 了 ， 远 算 不 上 是 智能 的 、 返 代 的 特征 工程 。 下 面试 验 一 下 新 的 特征 工 
程 技 术 ， 看 看 是 否 能 提高 计算 速度 ， 找 到 更 合适 的 特征 和 搜索 结果 的 更 好 方式 。 


9.3 第 二 关 : 更 多 特征 工程 和 更 智能 的 模型 


最 初 的 方法 是 创建 一 个 巨大 的 、 稀 玻 的 数组 ， 然 后 通过 一 个 筛选 器 暴力 求解 。 有 多 种 方式 
可 以 改进 这 种 方法 。 下 一 步 的 重点 是 使 用 更 好 的 技术 来 处 理 两 个 初始 特征 ， 并 修改 基于 项 
目的 协同 过 庆 方 法 来 加 快 迭 代 。 


首先 ， 在 假设 中 的 两 个 变量 上 ， 试 验 一 下 本 书 介 绍 过 的 精彩 的 特征 工程 技巧 。 在 更 加 深入 
地 研究 了 特征 之 后 ， 我 们 可 以 选择 那些 适合 每 种 变量 的 技术 ， 将 变量 转换 为 适合 推荐 系统 
的 “更 好 ”的 特征 。 


学 术 论 文 推荐 器 : 第 2 轮 
先 看 出 版 年 份 。2.2.2 节 中 介绍 了 为 什么 使 用 原始 计数 作为 特征 不 适合 那些 使 用 相似 度 度量 
的 方法 。 例 9-6 和 图 9-5 会 研究 如 何 对 year 进行 转换 ， 以 使 它 更 加 适合 我 们 选择 的 模型 。 
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例 9-6 ”等 宽 分 箱 + 虚拟 编码 (第 1 部 分 ) 


>>> print("Year spread: " model df['year'].min()," - ", model df['year'].max()) 
>>> print("Quantile spread:\n", model df['year'].quantile([0.25, 0.5, 0.75])) 
Year spread: 1831 - 2017 


Quantile spread: 

0.25 1990.0 

0.50 2005.0 

0.75 2012.0 

Name: year, dtype: float64 


# 绘制 出 版 年 份 ， 看 一 下 它 的 分 布 

>>> fig, ax = plt.subplots() 

>>> model df['year'].hist(ax-ax, 

EC bins- model df['year'].max() - model df['year'].min()) 
>>> ax.tick params(labelsize-12) 

>>> ax.set xlabel('Year Count', fontsize=12) 

>>> ax.set ylabel('Occurrence', fontsize=12) 
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图 9-5. 数据 集中 10 000 多 篇 学 术 论文 的 原始 出 版 年 份 分 布 
从 图 9-5 中 的 偏 态 分 布 来 看 ， 出 版 年 份 非常 适合 分 箱 操作 。 


我 们 将 根据 变量 的 取 值 范围 来 分 箱 ， 而 不 是 唯一 的 特征 值 数量 。 为 了 进一步 压缩 特征 空 
间 ， 我 们 对 分 箱 结果 进行 虚拟 编码 (0,0 9-7)。Pandas 的 内 置 函 数 可 以 完成 这 两 项 任务 。 
这 些 方 法 的 结果 很 容易 解释 ， 所 以 我 们 可 以 对 转换 后 的 特征 做 一 个 快速 检查 ( 见 图 9-6)， 
再 进行 后 面 的 工作 。 



























































例 9-7 定 宽 分 箱 + 虚拟 编码 (第 2 部分) 


# 按照 10 年 的 宽度 进行 分 箱 ， 可 将 出 版 年 份 特征 空间 从 156 压 缩 到 19 
>>> bins = int(round((model df['year'].max() - model df['year'].min()) / 10)) 








>>> temp df = pd.DataFrame(index = model df.index) 
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>>> temp df['yearBinned'] = pd.cut(model df['year'].tolist(), bins, precision = 0) 
pd.get dummies(temp df['yearBinned']) 

>>> X yrs.columns.categories 

IntervalIndex([(1831.0, 1841.0], (1841.0, 1851.0], (1851.0, 1860.0], 

(1860.0, 1870.0], (1870.0, 1880.0] ... (1968.0, 1978.0], 

(1978.0, 1988.0], (1988.0, 1997.0], (1997.0, 2007.0], 

(2007.0, 2017.0]] 


>>> X yrs 





# 绘制 新 的 分 布 


>>> fig, ax 


closed-'right', 
dtype='interval[float64]') 


plt.subplots() 


>>> X_yrs.sum().plot.bar(ax = ax) 

>>> ax.tick params(labelsize-8) 

>>> ax.set xlabel('Binned Years', fontsize=12) 
>>> ax.set ylabel('Counts', fontsize-12) 
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图 9-6: 分 箱 之 后 新 特征 X. yrs 的 分 布 


按照 10 年 的 宽度 进行 分 箱 ， 


我 们 保留 了 原始 变量 中 的 基本 分 布 。 如 果 需 要 对 其 他 分 布 进 





行 分 箱 ， 可 以 修改 一 下 分 箱 设置 ， 改 变 变量 在 模型 中 的 呈现 方式 。 因 为 我 们 使 用 的 是 余弦 
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相似 度 ， 所 以 这 样 做 没有 问题 。 下 面 接着 处 理 模型 中 最 初 包含 的 另外 一 个 特征 。 
研究 领域 特征 空间 对 初始 模型 的 大 小 和 处 理 时 间 有 非常 显著 的 影响 。 


检查 一 下 已 经 完成 的 工作 。 通 过 解析 字符 串 列 表 ， 我 们 在 第 一 关中 创建 了 一 个 “短语 袋 ”。 
既然 已 经 有 了 一 个 非常 好 用 的 稀 玻 数组 ， 就 应 该 使 用 这 个 更 高 效 的 数据 类 型 来 表示 这 个 短 
语 袋 。 例 9-8 演示 了 将 Pandas 数据 框 转换 为 NumPy 稀 玻 数组 之 后 对 计算 时 间 的 影响 。 


Gil 9-8 ”将 短语 袋 从 pd.Series 转换 为 NumPy fibi SH 


>>> X fos = fos features.values 

















# 看 一 下 每 个 对 象 的 大 小 ， 就 能 知道 这 种 转换 对 以 后 的 操作 有 什么 影响 。 
>>> print('Our pandas Series, in bytes: ', getsizeof(fos features)) 
>>> print('Our hashed numpy array, in bytes: ', getsizeof(X fos)) 


Our pandas Series, in bytes: 2530632380 
Our hashed numpy array, in bytes: 112 





真是 太 棒 了 ! 把 两 个 特征 组 合 在 一 起 ， 一 起 输入 过 滤器 ( 见 例 9-9) ， 重 新 运行 推荐 器 ( 见 
例 9-10) Wa UG 在 过 滤器 中 ， 我 们 使 用 了 scikit-learn 的 余弦 相似 度 函 
数 。 我 们 还 是 每 次 只 对 一 个 项 目 进 行 推荐 ， 目 的 是 节省 计算 时 间 。 


例 9-9 协同 过 滤 阶 段 1-2: 建立 项 目 特征 和 矩 阵 ， 搜 索 相 似 项 目 


>>> second features = np.append(X fos, X yrs, axis = 1) 

>>> print("The power of feature engineering saves us, in bytes: ", 
sags getsizeof(first features) - getsizeof(second features)) 
The power of feature engineering saves us, in bytes: 168066769 








>>> from sklearn.metrics.pairwise import cosine similarity 


>>> def piped collab filter(features matrix, index, top n): 
item similarities - V 
1 - cosine_similarity(features_matrix[index:index+1], 
features matrix).flatten() 
related indices = \ 
[i for i in item similarities.argsort()[::-1] if i !- index] 
return [(index, item similarities[index]) 
for index in related indices 
][0:top. n] 


例 9-10 ”基于 项 目的 协同 过 着 推荐 : 第 2 轮 
>>> def paper recommender(items df, paper ix, top n): 
if paper ix in model df.index: 
print('Based on the paper:') 
print('Paper index = ', model df.loc[paper ix].name) 
print('Title :', model df.loc[paper ix]['title']) 
print('FOS :', model df.loc[paper ix]['fos']) 
print('Year :', model df.loc[paper ix]['year']) 
print('Abstract :', model df.loc[paper ix]['abstract']) 
print('Authors :', model df.loc[paper ix]['authors'], '\n') 
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# 通过 数据 框 索引 定义 需要 的 数组 位 置 索引 

array ix = model df.index.get loc(paper ix) 

top results - piped collab filter(items df, array ix, top n) 
print('\nTop',top_n,'results: ') 





order = 1 
for i in range(len(top results)): 
print(order,'. Paper index = ', 


model df.iloc[top results[i][0]].name) 
print('Similarity score: ', top results[i][1]) 
print('Title :', model df.iloc[top results[i][0]]['title']) 
print('FOS :', model df.iloc[top results[i][0]]['fos']) 
print('Year :', model df.iloc[top results[i][0]]['year' ]) 
print('Abstract :', model df.iloc[top results[i][0]]['abstract']) 
print('Authors :', model df.iloc[top results[i][0]]['authors'], 
'\n') 
if order < top_n: order += 1 
else: 
print('Whoops! Choose another paper. Try something from here: \n', 
model df.index[100:200]) 


>>> paper recommender(second features, 2, 3) 
Based on the paper: 
Paper index = 2 


Title : Should endometriosis be an indication for intracytoplasmic sperm inject ... 


FOS : nan 

Year : 2015 

Abstract : nan 

Authors : [{'name': 'Jovana P. Lekovich', 'org': 'Weill Cornell Medical College, 


Top 3 results: 

1. Paper index = 10055 

Similarity score: 1.0 

Title : [Diagnosis of cerebral tumors; comparative studies on arteriography, 
FOS : ['Radiology', 'Pathology', 'Surgery'] 


Year : 1953 
Abstract : nan 
Authors : [{'name': 'Antoine'}, {'name': 'Lepoire'}, {'name': 'Schoumacker'}] 


2 . Paper index = 11771 

Similarity score: 1.0 

Title : A Study of Special Functions in the Theory of Eclipsing Binary Systems 
FOS : ['Contact binary'] 


Year : 1981 
Abstract : nan 
Authors : [{'name': 'Filaretti Zafiropoulos', 'org': 'University of Manchester '}] 


3 . Paper index = 11773 

Similarity score: 1.0 

Title : Studies of powder flow using a recording powder flowmeter and measure ... 
FOS : nan 


Year : 1985 
Abstract : This paper describes the utility of the dynamic measurement of the ... 
Authors : [{'name': 'Ramachandra P. Hegde', 'org': 'Department of Pharmacy, 








说 实话 ， 我 并 不 认为 这 次 特征 选择 的 效果 有 多 么 好 。 这 些 字段 中 有 很 多 缺失 值 。 下 面 继续 
看 一 下 能 否 找 出 一 些 信息 更 丰富 的 特征 。 




















找到 你 的 位 置 
在 Pandas 数据 框 和 NumPy 4E EZ je] 65 43 P, RS RA GEAR 
但 其 分 配 的 位 置 却 不 一 样 。 为 了 解决 这 个 问题 ，Pandas 提供 了 “iloc. .loc x i 
loc 三 种 方法 ， 如 例 9-11 所 示 。 
。 .loc 返回 基于 初始 Pandas 数据 框 的 索引 ， 可 以 让 我 们 引用 具体 的 论文 。 
。 .ilLoc 使 用 整数 位 置 ， 和 NumPy 数组 的 索引 是 一 样 的 。 
。 .get loc 可 以 帮助 我 们 在 已 知 数据 框 索引 时 找 出 整数 位 置 
例 9-11 在 转换 时 维护 索引 分 配 


>>> model df.loc[21] 





abstract A microprocessor includes hardware registers t... 
authors [{'name': 'Mark John Ebersole'}] 
fos [Embedded system, Parallel computing, Computer... 
keywords NaN 
title Microprocessor that enables ARM ISA program to... 
year 2013 


Name: 21, dtype: object 


»»» model df.iloc[21] 


abstract NaN 
authors [{'name': 'Nicola M. Heller'}, {'name': 'Steph... 
fos [Biology, Medicine, Post-transcriptional regul... 
keywords [glucocorticoids, post transcriptional regulat... 
title Post-transcriptional regulation of eotaxin by ... 
year 2002 


Name: 30, dtype: object 


>>> model df.index.get loc(30) 
21 


9.4 BZR: 更 多 特征 = 更 多 信息 


到 此 为 止 ， 我们 的 实验 并 没有 支持 初始 假设 ， 即 仅 靠 出 版 年 份 和 研究 领域 就 足以 推荐 出 相 
似 的 论文 。 既 然 如 此 ， 有 以 下 几 种 选择 。 


。 使 用 原始 数据 集中 更 多 的 数据 ， 看 看 能 否 得 到 更 好 的 结果 。 
。 花费 更 多 时 间 去 探索 数据 ， 看 看 能 否 找到 一 个 足够 密集 的 集合 来 提供 好 的 推荐 。 
。 添加 更 多 特征 ， 继 续 迭 代 当 前 模型 。 
第 一 种 选择 假设 问题 在 于 我 们 对 数据 的 抽样 ， 这 是 有 可 能 的 ， 但 这 样 做 和 图 9-4 中 翻动 数 
据 垃 圾 堆 找寻 更 好 答案 的 比喻 是 一 样 的 。 
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第 二 种 选择 可 以 更 好 地 理解 原始 数据 。 这 应 该 在 数据 探索 过 程 中 ， 根 据 特征 和 模型 选择 决 
策 的 变化 不 断 地 重新 进行 。 在 本 例 中 ， 初 始 的 子 样本 选择 就 反映 了 这 个 步骤 。 因 为 在 数据 
集中 还 有 更 多 变量 可 用 ， 所 以 我 们 就 不 再 重新 进行 这 个 步骤 了 。 


后 看 第 三 种 选择 ， 添 加 更 多 特征 ， 在 当前 模型 的 基础 上 继续 前 进 。 加 入 更 多 关于 每 
et inta TIDRS. 


根据 我 们 最 初 的 探索 ， 下 一 步 的 工作 将 集中 在 信息 量 最 丰富 的 两 个 字段 上 : 论文 摘要 和 作 
者 姓名 。 


学 术 论 文 推荐 器 : SASH 
回顾 一 下 第 4 章 ， 我 们 可 以 知道 论文 摘要 非常 适合 使 用 tf-idf 来 过 滤 掉 噪声 并 找 出 显著 相 
关 的 单词 。 我 们 在 例 9-12 中 实现 了 tf-idf。 
































例 9-12 停 用 词 +tf-idf 


# 需要 滤 掉 NaN 值 ， 供 sktlearn 以 后 使 用 
>>> filled df = model df.fillna('None') 


>>> from sklearn.feature extraction.text import TfidfVectorizer 


>>> vectorizer = TfidfVectorizer(sublinear tf-True, max df-0.5, 

os stop words-'english') 

>>> X abstract = vectorizer.fit transform(filled df['abstract']) 

>>> third features = np.append(second features, X abstract.toarray(), axis = 1) 


论文 作者 比较 混乱 ， 而 且 参 差 不 齐 ， 我 们 把 它 整理 成 字典 ， 再 对 它 进 行 one-hot 编码 ， 这 
样 可 以 降低 计算 负载 ， 如 例 9-13 所 示 。 


例 9-13 使 用 scikit-learn 的 DictVectorizer 进行 one-hot 编码 


>>> authors list = [] 


>>> for row in filled df.authors.itertuples(): 
# 为 每 个 序列 索引 创建 一 个 字典 
if type(row.authors) is str: 
y = ('None': row. Index} 
if type(row.authors) is list: 
# 将 这 些 键 + 值 添加 到 字典 
y = dict.fromkeys(row.authors[0].values(), row.Index) 
authors list.append(y) 











EE 











>>> authors list[0:5] 

[{'None': 0}, 

{'Ahmed M. Alluwaimi': 1}, 

{'Jovana P. Lekovich': 2, 'Weill Cornell Medical College, New York, NY': 2}, 
{'George C. Sponsler': 5}, 

('M. T. Richards': 7}] 
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>>> fr 
>>> vV 
>>> D 
>>> X_ 
>>> fo 


om sklearn.feature_extraction import DictVectorizer 
DictVectorizer(sparse-False) 

authors list 

authors = v.fit transform(D) 

urth features - np.append(third features, X authors, axis 


1) 








现在 可 以 使 用 推荐 器 看 看 这 些 新 特征 的 效果 了 。 例 9-14 给 出 了 结果 。 
例 9-14 基于 项 目的 协同 过 着 推荐 : 第 3 轮 





>>> paper recommender(fourth features, 2, 3) 

Based on the paper: 

Paper index = 2 

Title : Should endometriosis be an indication for intracytoplasmic sperm inject ... 
FOS : nan 

Year : 2015 

Abstract : nan 

Authors : [{'name': 'Jovana P. Lekovich', 'org': 'Weill Cornell Medical College, ... 
Top 3 results: 

1. Paper index - 10055 

Similarity score: 1.0 

Title : [Diagnosis of cerebral tumors; comparative studies on arteriography, 

FOS : ['Radiology', 'Pathology', 'Surgery'] 

Year : 1953 

Abstract : nan 

Authors : [{'name': 'Antoine'}, {'name': 'Lepoire'}, {'name': 'Schoumacker'}] 

2 . Paper index = 5601 

Similarity score: 1.0 


Title : 633 Survival after coronary revascularization, with and without mitral ... 
FOS : ['Cardiology' ] 

Year : 2005 

Abstract : nan 

Authors : [{'name': 'J.B. Le Polain De Waroux'}, {'name': 'Anne-Catherine ... 

3 . Paper index = 12256 

Similarity score: 1.0 












































Title : Nucleotide Sequence and Analysis of an Insertion Sequence from Bacillus ... 

FOS : ['Biology', 'Molecular biology', ‘Insertion sequence', 'Nucleic acid ... 

Year : 1994 

Abstract : A 5.8-kb DNA fragment encoding the cryIC gene from Bacillus thur... 

Authors : [{'name': 'Geoffrey P. Smith'}, {'name': 'David J. Ellar'}, {'name': 
尽管 某 些 字段 中 有 缺失 数据 ， 但 最 后 一 轮 特 征 工程 得 到 的 前 3 个 结果 都 向 我 们 推荐 了 医学 
领域 的 其 他 论文 。 
这 个 数据 集中 的 论文 范围 非常 广泛 。 例 如 ， 论 文 的 随机 抽样 中 可 以 包括 以 下 研究 领域 : 
“Coupling constant" “Evapotranspiratioin” “Hash function” “IVMS” “Meditation” “Pareto 
analysis” “Second-generation wavelet transform” “Slip” 4H “Spiral galaxy”, EBX 1 万 
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多 篇 论文 中 共有 7604 个 唯一 的 研究 领域 ， 这 些 最 终结 果 应 该 是 向 着 正确 方向 前 进 。 我 们 
的 工作 正 逐 步 接近 有 用 的 模型 ， 我 们 对 此 非常 有 信心 。 

















对 更 多 文本 型 变量 继续 迭代 ， 比 如 找 出 论文 题目 中 的 名 词 短 语 ， 或 对 关键 字 进 行 词 干 提 
取 ， 都 可 以 使 我 们 更 加 接近 “最 佳 ”推荐 。 


需要 注意 的 是 ， 这 里 所 说 的 “最 佳 ” 只 是 所 有 推荐 器 和 搜索 引擎 追求 的 一 种 理想 状态 。 我 
们 要 搜索 出 一 个 对 用 户 最 有 帮助 的 结果 ， 这 不 一 定 能 从 数据 中 直接 表现 出 来 。 特 征 工程 可 
以 抽象 出 显著 的 特征 并 将 其 转化 为 一 种 表示 形式 ， 以 使 算法 能 揭示 出 其 中 包含 的 显 式 和 隐 
式 信息 。 
































9.5 ”小结 


正如 你 看 到 的 ， 建 立 一 个 机 器 学 习 模型 非常 容易 ， 但 要 建立 一 个 好 模型 并 得 到 有 用 的 结果 
则 需要 花 很 多 时 间 做 很 多 工作 。 在 本 章 中 ， 我 们 为 了 获得 更 好 的 结果 ， 检 验 了 可 能 的 变量 
集合 ， 使 用 多 种 特征 工程 方法 进行 了 试验 。 在 这 里 ，“ 更 好 ”的 含义 不 仅 包括 从 训练 和 议 
试 中 得 到 好 的 结果 ， 还 包括 使 模型 更 简洁 ， 以 及 减少 在 各 种 试验 上 的 迭代 时 间 。 


本 书 开头 说 过 ， 要 精通 一 门 学 科 ， 需 要 深入 理解 其 中 的 原理 ， 以 便 获 得 直觉 ， 进 而 有 效 地 
将 知识 应 用 到 工作 中 。 和 希望 从 本 书 中 你 能 获得 必要 的 方法 和 工具 ， 提 高 工作 的 效率 和 效 
果 ， 同 时 扩展 你 的 数学 与 计算 机 能 力 ， 更 好 地 理解 为 什么 特征 工程 是 开发 有 用 的 机 器 学 习 
模型 的 一 项 基本 技能 。 
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线性 建 模 与 线性 代数 基础 





A.1 线性 分 类 概述 


MZ 


当 有 个 标记 好 的 数据 集 时 ， 特 征 空间 中 散布 着 不 同类 别 的 数据 点 ， 分 类 器 的 工作 就 是 将 不 
同类 别 的 点 分 隔 开 。 分 类 器 的 实现 方式 是 对 不 同类 别 的 数据 点 生成 不 同 的 输出 。 例 如， 当 
只 有 两 个 类 别 时 ， 一 个 好 的 分 类 器 应 该 对 一 个 类 别 生 成 较 大 的 输出 ， 而 对 另 一 个 类 别 生 成 
较 小 的 输出 。 那 些 正 好 位 于 两 个 类 别 之 间 的 点 可 以 形成 一 个 决策 面 ( 见 图 A-1)。 





























特征 2 A 











特征 1 

















图 A-1: 简单 二 值 分 类 找 出 一 个 界面 来 分 隔 两 个 类 别 的 数据 点 





可 以 使 用 很 多 函数 作为 分 类 器 。 由 于 若干 原因 ， 应 该 使 用 能 清晰 划分 类 别 的 最 简单 的 函 
数 。 首 先 ， 相 比 最 好 的 复杂 分 隔 符 ， 找 到 最 好 的 简单 分 隔 符 更 容易 。 其 次 ， 简 单 国 数 通常 








在 新 数据 上 的 扩展 效果 更 好 ， 因 为 要 使 新 数据 适合 过 于 复杂 的 训练 数据 是 非常 困难 的 〈 这 
就 是 过 拟 合 的 概念 )。 简 单 模型 或 许 会 犯错 误 ， 比 如 在 图 A-1 中 ， 有 些 点 在 错误 的 一 侧 。 
但 是 ， 我 们 宁愿 怕 牲 一 些 训练 准确 度 ， 来 换取 更 加 简单 的 、 能 得 到 更 高 测试 准确 度 的 决策 
面 。 这 种 使 复杂 度 最 小 而 可 用 性 最 大 的 原则 称 为 “ 奥 卡 姆 剃刀 ”， 在 科学 界 和 工程 界 都 广 
泛 适 用 。 


最 简单 的 函数 是 一 条 直线 。 带 有 一 个 输入 变量 的 线性 函数 是 最 常见 的 ( 见 图 A-2)。 





函数 个 
输出 




















图 A-2: 一 个 输入 变量 的 线性 函数 














量 的 线性 函数 的 可 视 化 ， 可 以 使 用 三 维 空间 中 的 平面 ， 也 可 以 使 用 二 维 
空间 中 的 等 k (nfl A3 BER), MENECER. ZEMAN, ABARAT 
a 间 中 的 点 。 











特征 




















图 A-3: 二 维 空间 中 线性 函数 的 等 高 线 图 
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更 高 维度 的 线性 函数 很 难 可 视 化 。 高 维 线性 函数 被 称 为 超 平面 。 但 超 平面 很 容易 用 代数 公 
式 表 示 。 一 个 输入 集合 为 xz xs cc Xx,， 权 重 参 数 集合 为 wo wb co. w, 的 多 维 线性 函数 可 以 
表示 如 下 : 


























f, X» tt, Xp) = Wo + WX) + wy*x, oso w,*X, 
使 用 向 量 表示 时 ， 公 式 可 以 更 简洁 : 
f(x) - xw 


我 们 遵循 数学 表示 的 常用 惯例 ， 用 粗 体 字母 表示 向 量 ， 非 粗 体 字母 表示 标量 。 向 量 x 在 最 
前 面 加 上 了 一 个 1， 作 为 截 距 项 wo 的 占 位 符 。 如 有 果 所 有 输入 特征 都 是 0， 那 么 函数 的 输出 
就 是 Woo PELA, wo 也 称 为 偏差 或 截 距 项 。 

















训练 一 个 线性 分 类 器 等 价 于 找 出 类 别 之 间 的 最 佳 分 隔 超 平面 ， 这 个 问题 可 以 转化 为 找 出 空 
间 中 方向 完全 正确 的 最 佳 向 量 w。 因 为 每 个 数据 点 都 有 一 个 目标 标签 y， 所 以 我 们 就 是 要 
找到 一 个 w 来 直接 预测 这 个 目标 标签 




















x'w-y 
因为 通常 有 多 个 数据 点 ， 所 以 要 找到 一 个 w， 能 同时 使 得 所 有 预测 都 接近 目标 标签 : 
Aw=y 


Kb, A 被 称 为 数据 矩阵 (在 统计 学 中 也 称 为 设计 和 矩 阵 )。 它 包含 特定 形式 的 数据 : 每 行 是 一 
个 数据 点 ， 每 列 是 一 个 特征 。( 有 时 人 们 使 用 它 的 转 置 形式 ， 基 中行 是 特征 ， 列 是 数据 点 。) 


A.2 和 矩阵 的 解析 


为 了 求解 前 面 的 方程 ， 需 要 一 些 基 本 的 线性 代数 知识 。 如 果 想 系统 地 学 习 线 性 代数 ， 我 们 
强烈 推荐 Strang (2006), 








这 个 方程 曾 述 了 这 一 事实 : 一 个 特定 的 矩阵 乘 以 一 个 特定 的 向 量 ， 可 以 得 到 一 个 具体 的 结 
果 。 和 矩阵 也 称 为 线性 算 子 ， 这 个 名 称 更 加 清楚 地 说 明了 算 阵 就 是 一 台 小 型 机 器 。 这 台 机 器 
接受 一 个 向 量 作为 输入 ， 然 后 使 用 若干 种 核心 操作 的 组 合生 产 出 另 一 个 向 量 。 这 些 核心 操 
作 包 括 : 旋转 向 量 的 方向 ， 增 加 或 减少 向 量 的 维度 ， 拉 伸 或 压缩 向 量 的 长 度 。 在 控制 输入 
空间 的 形状 方面 ， 这 些 操作 的 功能 非常 强大 。 




































































注 1: 严格 地 说 ， 这 里 给 出 的 公式 是 用 来 做 线性 回归 的 ， 不 是 线性 分 类 。 区 别 在 于 ， 回 归 问 题 可 以 使 用 实数 
型 的 目标 变量 ， 而 分 类 问题 的 目标 变量 通常 都 是 表示 不 同类 别 的 整数 。 通 过 非 线性 变换 ， 回 归 器 可 以 
转换 为 分 类 器 。 例 如 ,逻辑 回 归 分 类 器 将 输入 的 线性 变换 传递 到 一 个 逻辑 函数 中 。 这 种 模型 称 为 广义 
线性 模型 ， 它 们 的 内 核 是 线性 函数 。 尽 管 这 个 例子 是 关于 分 类 的 ， 我 们 还 是 使 用 线性 回归 的 公式 作为 
一 种 教学 工具 ， 因 为 它 特别 容易 分 析 。 它 的 结论 可 以 很 容易 地 推广 到 广义 线性 分 类 器 中 。 
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举 个 例子 ， 如 图 A-4 所 示 ， 一 个 3x2 的 矩阵 可 以 将 一 个 二 维 正方 形 转换 为 三 维 空间 中 的 
获 形 。 它 将 输入 空间 中 的 每 个 向 量 进行 了 旋转 和 拉 伸 ， 在 输出 空间 形成 了 新 的 向 量 。 
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图 A-4: 二 维 到 三 维 的 和 矩阵 变换 











A.2.1 从 向 量 到 子 空间 

为 了 理解 线性 算 子 ， 必 须 看 看 它 是 如 何 将 输入 转换 为 输出 的 。 幸 运 的 是 ， 我 们 不 用 每 次 只 
分 析 一 个 输入 向 量 。 向 量 可 以 构成 子 空间 ， 线 性 算 子 可 以 操作 向 量子 空间 。 

子 空间 是 满足 两 个 条 件 的 一 组 向 量 。 首 先 ， 如 果 它 包含 一 个 向 量 ， 那 么 就 包含 从 原点 到 这 
个 点 的 直线 。 其 次 ， 如 果 它 包含 两 个 点 ， 那 么 就 包含 这 两 个 向 量 的 所 有 线性 组 合 。 线 性 组 
合 是 两 种 类 型 操作 的 组 合 : 用 标量 乘 以 向 量 ， 以 及 两 个 向 量 相 加 。 















































子 空间 的 一 个 重要 特性 是 秩 ， 或 称 维度 ， 它 是 这 个 空间 中 自由 度 的 度量 。 直 线 的 秩 是 1， 二 
维 平面 的 秩 是 2， 以 此 类 推 。 如 果 你 能 想象 出 多 维 空间 中 一 只 多 维度 的 鸟 ， 那 么 子 空间 的 秩 
就 可 以 告诉 我 们 这 只 鸟 可 以 沿 着 多 少 个 “独立 的 ”方向 自由 飞翔 。 这 里 的 “独立 ” 指 的 是 
“线性 独立 ”: 如 果 一 个 向 量 不 能 表示 成 另 一 个 向 量 与 一 个 常数 的 乘积 形式 ， 就 可 以 说 这 两 
个 向 量 是 线性 独立 的 〈 也 就 是 说 ， 这 两 个 向 量 的 方向 不 是 完全 相同 ， 也 不 是 完全 相反 ) 。 


子 空间 可 以 定义 为 一 组 基 向 量 的 张 成 。( 张 成 是 个 技术 术语 ， 用 来 描述 由 一 组 向 量 的 所 有 
线性 组 合 构成 的 集合 。) 一 组 向 量 的 张 成 就 是 它 的 线性 组 合 (因为 就 是 这 么 定义 的 )。 所 
以 ， 如 果 我 们 有 一 组 基 向 量 ， 就 可 以 用 任意 非 零 常 数 乘 以 这 些 向 量 ， 或 把 它们 相 加 ， 得 到 
另 一 组 基 。 






































如 果 有 更 加 唯一 和 可 识别 的 基 来 描述 子 空间 ， 那 将 是 非常 好 的 。 由 一 组 单位 长 度 而 且 彼 此 
正 交 的 向 量 组 成 的 基 称 为 正 交 基 。 正 交 也 是 一 个 技术 术语 。( 在 所 有 数学 和 科学 书籍 中 ， 
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至 少 有 50% 的 词语 是 技术 术语 。 如 果 你 不 相信 ， 可 以 对 本 书 做 一 次 词 袋 计数 。) 如 果 两 个 


向 量 的 内 积 为 0， 它 们 裔 





此 成 90 度 角 的 。( 这 在 





就 是 彼此 正 交 的 。 从 各 种 意义 上 说 ， 我 们 都 可 以 认为 正 交 向 量 是 彼 
欧 几 里 得 空间 中 是 成 立 的 ， 欧 几 里 得 空间 非常 类 似 于 我 们 实际 生活 








的 三 维 空间 。) 将 正 交 向 量 归 一 化 ， 使 它 具 有 单位 长 度 ， 就 可 以 将 它们 转换 为 一 组 规则 的 


标尺 。 
总 的 来 说 ， 子 空间 就 像 


柱子 。 正 交 基 向 量 的 总 数 就 是 子 空间 的 秩 。 


是 一 顶 帐篷 ， 正 交 基 向 量 就 是 那些 能 够 撑 起 帐篷 的 、 彼 此 成 直角 的 
A-5 演示 了 这 些 概念 。 
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图 A-5: 四 个 有 用 的 线性 代数 概念 演示 : 内 积 、 线 性 组 合 、 基 向 量 和 正 交 基 向 量 





对 于 那些 喜欢 用 数学 来 进行 思考 的 人 ， 下 面 是 一 些 能 使 我 们 的 描述 更 精确 的 数学 定义 。 


标量 


一 个 数值 c， 与 向 量 相对 。 


向 


Had 


线性 组 合 


一 组 向 量 V,, …, w 的 张 成 


对 于 任意 41,…, 44， 向 量 U=aiVi 十 … tay, 的 集合 。 


有 用 的 线性 代数 定义 


x= (x, Xo, Us. Xn) 








ax 4 by (ax, | by, ax» | by», US ax, + by,) 
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线性 独立 
XX 和 J 是 线性 独立 的 ， 如 果 对 任意 标量 常数 c MRA x z cy. 
内 积 








<xy> XW | Xay5 poor Xn 
正 交 向 量 
两 个 向 量 x 和 了 是 正 交 的 ， 如 果 <x,y> = 0。 
子 空间 
一 个 更 大 向 量 空间 中 的 向 量子 集 ， 满 足以 下 3 个 条 件 。 
(1) 包含 0 向 量 。 
(2) 如 果 和 包含 向 量 v， 则 包含 所 有 向 量 cv， 其 中 Cc 是 个 标量 。 
(3) 如 果 和 包含 两 个 向 量 U 和 v， 则 包含 向 量 十 Vb。 


基 

能 张 成 一 个 子 空间 的 向 量 集合 。 

正 交 基 

基 {yi,by,…,b,} APAFA ij, WA <v, v>=0, 
子 空 间 的 秩 

能 张 成 子 空 间 的 线性 独立 基 向 量 的 最 小 数目 。 








A.2.2 ”奇异 值 分 解 (SVD) 

矩阵 对 输入 向 量 进行 线性 变换 。 线 性 变换 非常 简单 和 受 限 ， 由 此 可 知 和 矩阵 不 能 随意 地 操作 
子 空间 。 线 性 代数 中 一 个 最 有 趣 的 定理 说 明 ， 所 有 方 阵 (不 管 其 中 包含 什么 数值 ) 都 可 以 
将 一 组 特定 向 量 通过 某 种 放 缩 映射 回 它 们 本 身 。 对 更 为 一 般 的 长 方形 矩阵 ， 它 可 以 将 一 组 
输入 向 量 映射 为 相应 的 输出 向 量 ， 它 的 转 置 可 以 将 这 些 输 出 向 量 映射 回 原来 的 输入 向 量 。 
用 数学 术语 表示 就 是 方 阵 具 有 与 特征 值 对 应 的 特征 向 量 ， 长 方形 矩阵 具有 与 奇异 值 对 应 的 
左 奇异 向 量 和 右 奇 异 向 量 。 



























































特征 向 量 与 奇异 向 量 
令 4 是 一 个 nxn 徐 阵 。 如 果 存 在 一 个 向 量 y 和 一 个 标量 4， 使 得 Ay = Av, WAR vA 
的 一 个 特征 向 量 , 4 A 的 一 个 特征 值 。 


令 44 是 一 个 长 方形 矩阵 。 如 果 存 在 向 量 & 和 向 量 V 以 及 一 个 标量 o， B Av = ou B. 
48=o， 则 称 & 和 vv 是 4 的 左 奇 异 向 量 和 右 奇异 向 量 ,o 是 4 的 一 个 奇异 值 。 











和 矩阵 奇异 值 分 解 的 数学 表示 形式 如 下 : 
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A-UXV' 
其 中 和 矩阵 UV 和 二 的 列 分 别 构成 了 输入 空间 和 输出 空间 的 正 交 基 , Ea Et 
角 阵 。 


从 几何 上 看 ， 和 矩阵 依次 进行 了 以 下 变换 。 








(1) 将 输入 向 量 映射 到 右 奇 异 基 向 量 。 

(2) 通过 相应 的 奇异 值 对 每 个 坐标 进行 放 缩 。 
(3) 用 放 缩 结 果 乘 以 每 个 左 奇异 向 量 。 

(4) 累加 结果 。 


图 A-6 给 出 了 示意 图 。 操 作 从 右 向 左 进行 矩阵 和 向 量 的 相 乘 。 最 右 侧 的 怎 阵 对 输入 进行 旋 
转 ， 并 隐 式 地 投影 到 一 个 低 维 空间 。 在 图 A-6 中 ， 输 入 立方 体 变 成 了 一 个 平面 正方 形 ， 而 
且 是 旋转 过 的 。 下 一 个 矩阵 在 一 个 方向 上 挤 压 正方 形 ， 并 在 另 一 个 方向 上 拉 伸 它 ， 使 正方 
形变 成 了 长 方形 。 最 后 ， 最 左 侧 的 算 阵 再 次 旋转 长 方形 ， 并 对 其 投影 ， 回 到 一 个 可 能 更 高 
维 的 空间 一 一 但 它 还 是 一 个 平面 长 方形 ， 不 是 某 种 高 维 对 象 。 


LH 




































































d d 





图 A-6: 和 矩阵 分 解 为 三 个 小 矩阵 : 旋转 、 放 缩 、 旋 转 


如 果 A 是 个 实 和 矩阵 (也 就 是 说 所 有 和 矩阵 元 素 都 是 实数 )， 那 么 所 有 奇异 值 和 奇异 向 量 也 都 
是 实数 。 奇 异 值 可 以 是 正 数 、 人 负数 或 0。 和 矩阵 奇异 值 的 有 序 集合 称 为 它 的 庶 ， 它 可 以 揭示 
大 量 矩 阵 信 息 。 奇 异 值 之 间 的 差 影 响 着 解 的 稳定 性 ， 最 大 和 最 小 的 奇异 值 绝对 值 之 间 的 比 
率 (条 件数 ) 影响 着 一 个 迭代 求解 器 找到 和 矩阵 解 的 速度 。 这 些 特性 对 我 们 能 找到 的 解 的 质 
量 都 有 非常 大 的 影响 。 


A.2.3 数据 矩阵 的 四 个 基本 子 空间 
通过 四 个 基本 子 空间 解析 和 矩阵 是 另 一 种 有 用 的 矩阵 解析 方式 ， 这 四 个 基本 子 空间 是 : 列 空 
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间 、 行 空间 、 零 空间 和 左 零 空 间 。 这 四 个 子 空间 可 以 完整 地 描述 由 4 和 4 定义 的 线性 系 
统 的 解 ( 并 由 此 得 名 )。 














对 于 数据 矩阵 (其 中 行 是 数据 点 ， 列 是 特征 )， 这 四 个 基本 子 空间 可 以 通过 数据 与 特征 之 
间 的 关联 来 理解 。 下 面 详 细 地 进行 说 明 。 























1. 列 空间 
数学 定义 : 

输出 向 量 s 的 集合 ， 其 中 s= A4w， 权 重 向 量 w 是 可 变 的 。 
数学 解释 : 

列 的 所 有 可 能 的 线性 组 合 。 


数据 解释 : 
基于 观测 特征 ， 所 有 结果 都 是 线性 可 预测 的 。 向 量 w 中 包含 了 每 个 特征 的 权重 。 














基 





对 应 于 非 零 奇异 值 的 左 奇异 向 量 (EE 忌 的 列子 集 ) 。 
2. 行 空间 

输出 向 量 r EA, EP rsu, REHE u 是 可 变 的 。 
数学 解释 : 
行 的 所 有 可 能 的 线性 组 合 。 


数据 解释 : 
行 空间 中 的 一 个 向 量 可 以 表示 为 现 有 数据 点 的 一 个 线性 组 合 。 因 此 ， 行 空间 可 以 解释 为 
“ 韭 奇异 ”数据 的 空间 。 向 量 w 中 包含 了 线性 组 合 中 每 个 数据 点 的 权重 。 




















基 : 
对 应 于 非 零 奇 异 值 的 右 奇异 向 量 ERE VIITE). 





3. 零 空间 
输入 向 量 w 的 集合 ， 其 中 ww 满足 Aw = 0。 

数学 解释 : 
与 4 中 所 有 行 都 正 交 的 向 量 集 合 。 零 空间 可 以 被 矩阵 挤 压 为 0， 它 是 添加 在 Aw = y HJ 
解 空 间 上 的 “泡沫 ”。 
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数据 解释 : 
不 能 表示 为 现 有 数据 点 的 线性 组 合 的 “奇异 ”数据 点 。 


























基 : 
对 应 于 0 奇异 值 的 右 奇异 向 量 (人 VV 中 的 其 余 列 )。 
4. 左 零 空 间 
REEL: 
输入 向 量 u WRA, Fr u WE uA = 0. 
数学 解释 : 
与 4 中 所 有 列 都 正 交 的 向 量 集合 。 左 零 空 间 与 列 空间 是 正 交 的 。 
数据 解释 : 


不 能 表示 为 现 有 特征 的 线性 组 合 的 “奇异 特征 向 量 ”。 





基 





对 应 于 0 奇异 值 的 左 奇 异 向 量 (U 中 的 其 余 列 )。 


列 空间 与 行 空间 中 的 向 量 是 能 够 被 当前 观测 到 的 数据 和 特征 表示 出 来 的 向 量 。 列 空间 中 的 
向 量 是 非 奇 异 的 特征 ， 行 空间 中 的 向 量 是 非 奇 异 的 数据 点 。 


对 于 建 模 和 预测 目的 ， 非 奇异 是 一 件 好 事 。 一 个 满 秩 的 列 空间 意味 着 特征 集合 中 包含 着 足 
够 的 信息 ， 可 以 对 任何 需要 的 目标 向 量 进 行 建 模 。 一 个 满 秩 的 行 空间 意味 着 各 个 不 同 的 数 
据点 中 包含 着 足够 的 变异 ， 可 以 覆盖 特征 空间 的 各 个 角落 。 那 些 奇 异 的 数据 点 和 特征 (分 
别 位 于 零 空间 和 左 零 空间 中 ) 才 是 我 们 需要 担心 的 。 


在 为 数据 建立 线性 模型 的 应 用 中 ， 零 空间 也 可 以 看 作 “ 奇 异 ” 数 据点 的 子 空间 。 在 这 里 ， 


奇异 性 不 是 什么 好 事情 。 奇 异 的 数据 点 表示 那些 不 能 被 训练 集 线 性 表示 的 虚幻 数据 。 同 
样 ， 左 零 空间 中 包含 的 是 不 能 表示 为 现 有 特征 的 线性 组 合 的 奇异 特征 。 



































零 空间 与 行 空 间 是 正 交 的 。 原 因 很 简单 ， 从 零 空间 的 定义 可 知 ，w 与 4 中 所 有 行 向 量 的 内 
积 都 是 0。 因 此 ，w 与 这 些 行 向 量 张 成 的 空间 (也 就 是 行 空间 ) 是 正 交 的 。 同 样 ， 左 零 空 
间 与 列 空间 也 是 正 交 的 。 


A.3 线性 系统 求解 


让 我 们 把 这 些 数学 知识 应 用 到 当前 的 问题 中 : 训练 线性 分 类 器 ， 这 个 问题 与 线性 系统 求解 
联系 得 非常 紧密 。 我 们 深入 研究 了 和 矩阵 操作 的 原理 ， 因 为 要 对 其 进行 逆向 工程 。 为 了 训练 
一 个 线性 分 类 器 ， 我 们 必须 找到 权重 输入 向 量 w。 在 系统 Aw = y 中 ， 这 个 w 能 映射 到 观测 
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到 的 目标 输出 y， 其 中 4 是 数据 矩阵 。” 


面 逆向 分 析 一 下 线性 算 子 。 如 果 已 经 有 了 4 的 奇异 值 分 解 ， 就 可 以 将 py 映射 到 左 奇 异 癌 
量 (UA) 上 ， 再 逆转 缩放 因子 〈 乘 以 非 零 奇 异 值 的 倒数 ) ， 最 后 将 它们 映射 回 右 奇异 
量 (VENI) 上 。 很 简单 ， 是 不 是 ? 


这 实际 上 是 计算 矩阵 A 的 伪 逆 的 过 程 。 它 利用 了 正 交 基 的 一 个 关键 特性 : FE he E 
阵 。 这 就 是 SVD 功能 如 此 强大 的 原因 。( 实 际 上 ， 真 正 的 线性 系统 求解 器 不 使 用 SVD， 
因为 它 的 计算 成 本 太 高 。 有 成 本 更 低 的 其 他 和 矩阵 分 解 方法 ， 比 如 QR 分 解 、LU 分 解 、 
Cholesky 分 解 。) 














-= 























可 



































但 是 ， 在 我 们 的 快速 介绍 中 漏 掉 了 一 个 小 细节 : 如 果 奇 异 值 为 0 应 该 怎么 办 呢 ? 我 们 不 能 
求 0 的 倒数 ， 因 为 1/0 = %。 这 就 是 “ 伪 逆 ”这 个 名 称 的 由 来 。( 真 正 的 逆 和 矩阵 其 至 不 能 定 
义 在 长 方形 矩阵 上 ， 只 有 特征 值 都 不 是 0 的 方 阵 才 有 逆 和 矩阵 。) 不 管 什么 样 的 输入 ， 都 会 
被 为 0 的 奇异 值 粉碎 得 无 影 无 踪 ， 根 本 不 能 找 回 原来 的 输入 。 


好 的 ， 我 们 再 把 这 个 过 程 详 细 说 一 下 ， 用 所 学 的 知识 做 一 下 线性 系统 的 求解 。 假 设 我 们 
得 到 了 Aw = 了 的 一 个 答案 ， 称 其 为 wpaiowst:， 因 为 它 特别 适合 y。 假 设 还 有 一 些 能 被 4 挤 
压 为 0 的 输入 向 量 ， 我 们 取 其 中 一 个 ， 称 其 为 waamme， 因 为 它 哇哇 大 器 。 然 后 ， 如 果 将 
W particular fü W'sad-trumpet 相 加 ， 会 发 生 什么 呢 ? 












































A(Woarticutar ix Wead-trumpet) =y 


太 棒 了 ! 这 也 是 一 个 解 。 实 际 上 ， 任 何 能 被 挤 压 为 0 的 输入 都 可 以 加 到 特定 解 上 ， 从 而 有 
得 到 一 个 解 。 一 般 解 可 以 表示 如 下 : 











4 











W general = W particular 村 Whomogeneous 


Woarticular 是 方程 Aw = y 的 一 个 精确 解 ， 这 个 解 可 能 存在 ， 也 可 能 不 存在 。 如 果 没 有 精确 解 ， 
那么 线性 系统 只 能 近似 求解 。 如 果 有 精确 解 ， 那 么 y 就 属于 A 的 列 空间 。 列 空间 是 4 可 以 
通过 列 的 线性 组 合 映射 到 的 向 量 集合 。 
































Whomogeneous 是 方程 Aw ES 0 的 个 解 。 (aa 长 大 之 后 ? 名 字 就 变 成 了 Whomogeneous o ) 这 看 上 
去 似曾相识 ， 所 有 Whomogencous 向量 的 集合 构成 了 4 的 零 空 间 ， 也 就 是 奇异 值 为 0 的 右 奇异 
向 量 张 成 的 空间 。 








注 2: 实际 上 ， 情 况 还 要 更 复杂 一 些 。y 可 能 不 在 4 的 列 空间 中 ， 所 以 这 个 问题 可 能 没有 解 。 这 时 ， 统 计 机 
器 学 习 会 寻找 一 个 近似 解 ， 而 不 是 放弃 。 它 定义 一 个 损失 函数 来 对 解 的 质量 进行 量化 。 如 果 解 是 精确 
AY, 损失 函数 的 值 就 是 0。 误 差 越 小 ， 损 失 函 数 的 值 越 小 ， 误差 越 大 ， 损 失 函 数 的 值 越 大 ， 以 此 类 推 。 
这 样 ， 训 练 过 程 就 是 寻找 最 优 参 数 来 使 损失 函数 最 小 化 。 在 普通 线性 回归 中 ， 损 失 函 数 称 为 平方 残 差 
损失 ， 它 的 本 质 作 用 就 是 将 y 映 射 到 4 的 列 空 间 中 一 个 最 接近 的 点 。 逻 辑 回 归 最 小 化 的 是 对 数 损失 。 
在 这 两 种 情形 以 及 广义 线性 模型 中 ， 线 性 系统 Aw =y 通常 位 于 问题 的 核心 。 因 此 ， 这 部 分 内 容 是 非 
常 重要 的 。 
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“ 零 空 间 ” 这 个 名 称 听 起 来 像 是 一 种 存在 性 危机 的 悲伤 结局 。 如 果 零 空间 中 除了 全 零 向 量 
之 外 还 有 其 他 向 量 ， 那 么 方程 4w = 了 就 有 无 穷 多 解 。 有 很 多 解 可 供 选择 本 身 不 是 一 件 坏 
了 ， 有 时 候 我 们 可 以 选择 任意 一 个 解 。 但 如 果 有 很 多 可 能 的 答案 ， 就 会 有 多 个 特征 集合 可 
以 用 于 分 类 任务 。 这 时 就 很 难 弄 清楚 哪个 特征 才 是 真正 重要 的 。 























alia 











解决 零 空间 过 大 这 个 问题 的 一 种 方法 是 添加 额外 的 限制 条 件 ， 从 而 对 模型 进行 调整 
Aw —- y 


其 中 几 满 足 ww-c. 





这 种 正则 化 方式 限制 了 权重 向 量具 有 特定 的 范 数 c。 这 种 正则 化 的 强度 是 通过 一 个 正则 化 
参数 来 控制 的 ， 和 前 面 实验 中 的 做 法 一 样 ， 这 个 参数 必须 调 优 。 





一 般 来 说 ， 特 征 选 择 方法 需要 选取 出 最 有 用 的 特征 来 降低 计算 负担 ， 减 轻 模型 的 模糊 性 ， 
并 使 得 学 习 出 的 模型 更 与 众 不 同 。 这 也 是 2.6 市 中 的 重点 。 


男 一 个 问题 是 数据 矩阵 的 谱 的 “不 均匀 性 ”。 在 训练 线性 分 类 器 时 ， 我 们 关心 的 不 仅 是 线 
性 系统 是 否 有 通用 解 ， 还 有 我 们 是 否 能 容易 地 找到 这 个 解 。 通 常 ， 训 练 过 程 使 用 的 求解 器 
要 计算 损失 函数 的 梯度 ， 然 后 沿 着 梯度 以 较 小 的 步 长 求解 。 当 某 些 奇 异 值 非常 大 而 其 余 
奇异 值 非常 接近 于 0 时 ， 要 想 找 到 真实 答案 ， 求 解 器 需要 非常 小 心地 绕 过 较 长 的 奇异 向 量 
(对 应 于 大 奇异 值 的 奇异 向 量 ) ， 花 费 大 量 时 间 在 较 短 的 奇异 向 量 附近 进行 探索 。 这 种 谱 的 
“不 均匀 性 ”可 以 由 和 矩阵 的 条 件数 来 表示 ， 也 就 是 最 大 奇异 值 和 最 小 奇异 值 的 绝对 值 之 间 
的 比值 。 















































总 结 一 下 ， 为 了 找 出 一 个 与 众 不 同 的 好 线性 模型 ， 也 为 了 比较 容易 地 找到 它 ， 我 们 需要 以 
下 条 件 。 


(1) 标签 向 量 能 比较 好 地 通过 特征 〈 列 向 量 ) 的 一 个 子 集 的 线性 组 合 进行 近似 ， 这 个 特征 
集合 如 有 果 是 线性 独立 的 就 更 好 了 。 

(2) 要 使 零 空间 较 小 ， 行 空间 必须 很 大 。( 这 是 因为 这 两 个 子 空间 是 正 交 的 。) 数据 点 集合 
( 行 向 量 ) 越 线性 独立 ， 零 空间 越 小 。 

(3) 要 想 非常 容易 地 找到 解 ， 数 据 矩 阵 的 条 件数 《最 大 奇异 值 和 最 小 奇异 值 之 间 的 比值 
该 较 小 。 
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封面 图 片 来 自 Elements of Ornithology. 
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